SAE를 통해 LLM의 데이터를 변경, 조작해보자가 시작되었습니다!!!!
https://transformer-circuits.pub/2024/scaling-monosemanticity/
여기서 시작된 아이디어 입니다.!
금문교에서 시작된 SAE!
https://jbloomaus.github.io/SAELens/
이 아저씨 블로그를 통해서 배우려고 합니다.
https://github.com/jbloomAus/SAELens
깃 허브 보면 튜토리얼까지 잘 되어 있더라고여
https://huggingface.co/jbloom/Gemma-2b-Residual-Stream-SAEs
허깅 페이스에 모델도 공개되어 있습니다.
이건 Residual에서 뽑은 SAE로 데이터 크기가 많이 줄어든다고 하네요
밑에는 나머지 자료들 좀 저장용으로
https://huggingface.co/google/gemma-scope
여기에 모델들 공개해 놓는다고 합니다.
https://github.com/EleutherAI/sae
SAE 하나 더 있는데 이건 그렇게 친절해 보이지 않아서...
https://transformer-circuits.pub/2024/april-update/index.html
https://www.anthropic.com/research#interpretability
여기 업데이트도 잘 확인해보기
https://www.salesforceairesearch.com/crm-benchmark
벤치마크 점수 확인해서 작은데 좋은 모델로 뽑아 쓰기
https://huggingface.co/collections/HuggingFaceTB/smollm-6695016cad7167254ce15966
아마 이 모델이 될 것 같기도 합니다...
'인공지능 > XAI' 카테고리의 다른 글
Sae 학습에 따른 dead_features (2) | 2024.10.04 |
---|---|
LLama3 학습 데이터 변환하여 LLama3.2 Sparse Autoencoder 학습하기 (3) | 2024.09.27 |
SAE 통해 특정 feature를 강화시켜 LLM 출력 변형하기 - 미스트랄 mistral 7b (2) | 2024.09.26 |
SAE Tutorial summarize (4) | 2024.09.24 |
LLM interpretability1 : Toy Models of Superposition (1) | 2024.09.12 |