반응형

2024/10 39

Sparse Autoencoder Test - l1_Coefficient, Context_length, Latent_space_size

기존 라마 1B의 출력입니다. 결론적으론 제 SAE를 못 쓰게 되었는데 파라미터 업데이트가 문제였네요....8일전 업데이트해서 저 파라미터에 대한 SAE가 아니기 때문에 이전 Llama를 사용해야 해서.....일단... 시작은 "yoonLM/sae_llama3.2org_1B_512_16_l1_100" 모델입니다.1B 뒤부터 Contest_length, Latent_space_scale, l1_coefficient 입니다.모델 부르는 방법은 아래와 같습니다.import osfrom setproctitle import setproctitlesetproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = "0"import torchfrom tqdm import tqdmimport..

인공지능/XAI 2024.10.31

sae-vis tutorial

SAE-VIS 데모참고: 이것이 최종 버전 데모입니다. (첫 번째 및 두 번째 이전 버전은 최신 버전의 라이브러리를 나타내지 않습니다.)이 Colab 파일은 제가 만든 오픈소스 희소 오토인코더 시각화 도구(sparse autoencoder visualizer)를 시연하기 위해 생성되었습니다. 자세한 내용은 여기에서 확인할 수 있습니다. 추가적으로 참고할 링크들은 다음과 같습니다:GitHub 저장소개발자 가이드: 코드베이스를 이해하고 기여하고자 하는 분들을 위한 자료사용자 가이드: 코드베이스의 모든 기능을 이해하고자 하는 분들을 위한 자료 (이 Colab을 따라 읽는 것도 또 다른 방법이며, 대부분 자가 설명적입니다)이 Colab에서는 두 가지 종류의 시각화 방법을 시연합니다:특징 중심 시각화: 단일 특징..

인공지능/XAI 2024.10.31

MoE란? - Mixture of Experts

https://huggingface.co/blog/moe Mixture of Experts ExplainedMixture of Experts Explained With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI community: Mixture of Experts, or MoEs for short. In this blog post, we take a look at the buildinghuggingface.co MoE란? 모델의 규모가 크면 클수록 더 좋은 성과를 보인다.그러나 MoE를 사용하면 훨씬 더 적은 컴퓨팅으로 모델을 학..

latent space, l1 coefficient, context length에 따른 Sparse Autoencoder 학습

2024.10.15 - [인공지능/자연어 처리] - l1 Coefficient에 따른 Sparse Autoencoder 학습, 출력 확인 l1 Coefficient에 따른 Sparse Autoencoder 학습, 출력 확인학습 완료 직전에 네트워크 오류로 허깅페이스에서 데이터를 가져오지 못하여 60%, 80%만 확인할 수 있습니다...ㅠ l1 coefficient0.01151050100l1 Loss 1205.29108.9743.2535.9213.9712.47mse loss2.24153.03287376.66764.88782yoonschallenge.tistory.com이전 글에 좀 더 작은 latent space 있습니다. l1 coefficient0.010.050.10.010.050.1latent_spa..

인공지능/XAI 2024.10.29

Hugging face Chat-ui, Vllm으로 챗봇 만들기

https://github.com/huggingface/chat-ui GitHub - huggingface/chat-ui: Open source codebase powering the HuggingChat appOpen source codebase powering the HuggingChat app. Contribute to huggingface/chat-ui development by creating an account on GitHub.github.comhttps://docs.vllm.ai/en/latest/serving/openai_compatible_server.html Chat UI는 모델을 잘 보일 수 있게 사이트를 만들어주는 느낌이고, Vllm은 모델을 빠르게 돌려주는 툴 인것 같네요  일단..

동역학 문제 풀이 기록1

속력이 시간에 대한 함수로 주어지고, 위치와 가속력을 t=3 일 때 구하라고 한다.이건 그냥 미분과 적분하면 끝! 초기 속도, 초기 위치가 주어졌다.위로 가는 것이니 가속도도 주어진 셈이고 이다.v=0일 때 t 를 구해서 적분하여 s를 구할 수 있고, 여기서 s= 0일 때 t를 구하여 다시 v를 구할 수 있다.여기에 나온 vdv = ads를 사용하진 않을 것 같다.계산이 편할 것 같긴 하지만 시험 땐 내가 편한 방식으로 풀 것 같아서...초기 속도, 위치, 가속도가 s에 관한 식으로 주어졌다.v와 t를 구하는 문제다이 문제는 v dv = a ds를 통해서 v를 먼저 구한다. 그리하여 s일 때 속도를 구할 수 있다.그 다음 v = ds/dt  => v dt = ds 를 통해 t에 관한 식을 뽑아 낼 수 있..

기타 2024.10.24

GPT로 DACON 진행해보기

뭔가 GPT로 요즘 kaggle도 씹어 먹을 수 있다 그래서 한번 쯤 진행해 보고 싶었던 내용입니다.GPT한테 대회 규정 다 던져주고, 이 가이드 라인에 따라 제작해달라고 하니까 작성해줍니다.o1-preview는 사용 횟수에 제한이 있으니 적절히 사용해야 되니까 4o를 많이 사용해서 최대한 요약했습니다. 가이드라인: 제1회 MAI 경진대회 준비1. 대회 목표 및 데이터 분석목표: H&E 염색된 조직 이미지를 통해 유전자 발현 정보를 예측하는 모델 개발.데이터:학습 데이터: 6992개의 이미지와 3467개의 유전자 발현 정보.테스트 데이터: 2277개의 이미지 (유전자 발현 정보는 제공되지 않음).특징*: 각 이미지에 대해 다차원적인 유전자 발현 정보를 추론해야 하므로, 이미지 처리와 고차원 예측 능력을 ..

역사와 한국의 영토 중간고사 요약

1주차 - 러일 전쟁 및 한반도1897 - 고종황제가 대한 제국 선포 1894 ~ 1895 청일 전쟁에서 일본이 승리 -> 한반도 장악이 더 쉬워짐1876.2 강화도 조약을 통해 조선을 개항하고, 청나라와의 관계 약화 1895.12 - 청일 전쟁에서 일본이 이긴 후 복귀한 개화파의 서재필은 독립 협회를 창립하여 대한 제국 설립에 도움을 줌 -> 청나라로부터 자주 독립이 목표였고, 진정한 독립 국가가 되길 염원 독립 협회 - 입헌 군주제 -> 만민 공동회를 개최하여 고종도 허락 서구파 - 전제 군주제 -> 고종과 이간질하여 힙헌 군주제 폐지, 독립 협회 해산 => 근대화가 멀어지고, 일본이 쉽게 처들어 올 수 있게 되었음 일본이 청일 전쟁 승리 후 요동 반도를 점령했으나 삼국(러, 독, 프)가 반환하라고 ..

기타 2024.10.21

Improving Dictionary Learning with Gated Sparse Autoencoders - 논문 리뷰

https://arxiv.org/abs/2404.16014 Improving Dictionary Learning with Gated Sparse AutoencodersRecent work has found that sparse autoencoders (SAEs) are an effective technique for unsupervised discovery of interpretable features in language models' (LMs) activations, by finding sparse, linear reconstructions of LM activations. We introduce the Gatedarxiv.org  기존 SAE에 LSTM과 같은 GATE 구조를 추가하여 필요한 항만 ..

728x90
728x90