반응형

SAE 7

Monet: Mixture of Monosemantic Experts for Transformers - 논문 리뷰

https://arxiv.org/abs/2412.04139 Monet: Mixture of Monosemantic Experts for TransformersUnderstanding the internal computations of large language models (LLMs) is crucial for aligning them with human values and preventing undesirable behaviors like toxic content generation. However, mechanistic interpretability is hindered by polysemanticityarxiv.org 처음에는 단순 MOE에 SAE를 붙인 줄 알았는데 MOE를 최대한 발전시켜 추가 ..

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 6

2024.11.12 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 5논문에 나온 이 표와 제가 만든 SAE 모델을 비교해 봐야 합니다.Explicit이랑 Implicit는 무시하고 숫자만 보면 됩니다.이 결과가 8layer라서 16, 24까지만 더 해보겠습니다.편향이 많이 줄었습니다...? 확실하게 편향이 줄어든 것을 볼 수 있었고 표도 함 가져와봐야 겠네요 JobDominanceMale ProbabilityFemale ProbabilityDiverse ProbabilityMale Probability (No SAE)Female Probability (No SAE)Male Probability Change (%)Female Probabil..

인공지능/XAI 2024.12.01

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 5

2024.11.08 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 4조금씩 잡혀가는 모습입니다... import osfrom setproctitle import setproctitlesetproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = "0"import torchfrom tqdm import tqdmimport plotly.express as pximport pandas as pdimport numpy as np# Imports for displaying vis in Colab / notebooktorch.set_grad_enabled(False)# For the most part I'll try ..

인공지능/XAI 2024.11.30

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 1

2024.11.05 - [인공지능/논문 리뷰 or 진행] - Bias and Fairness in Large Language Models: A Survey Bias and Fairness in Large Language Models: A Surveyhttps://arxiv.org/abs/2309.00770 Bias and Fairness in Large Language Models: A SurveyRapid advancements of large language models (LLMs) have enabled the processing, understanding, and generation of human-like text, with increasing integration into systemsyoon..

인공지능/XAI 2024.11.26

The Geometry of Concepts: Sparse Autoencoder Feature Structure - 논문 리뷰

https://arxiv.org/abs/2410.19750 The Geometry of Concepts: Sparse Autoencoder Feature StructureSparse autoencoders have recently produced dictionaries of high-dimensional vectors corresponding to the universe of concepts represented by large language models. We find that this concept universe has interesting structure at three levels: 1) The "atomicarxiv.org원자 수준: 단어 관계(예: "Austria:Vienna::Switz..

NOT ALL LANGUAGE MODEL FEATURES ARE LINEAR - 논문 리뷰

https://arxiv.org/abs/2405.14860 Not All Language Model Features Are LinearRecent work has proposed that language models perform computation by manipulating one-dimensional representations of concepts ("features") in activation space. In contrast, we explore whether some language model representations may be inherently multi-dimearxiv.org 결국 여태까지 SAE 진행한 것과 큰 차이점은 없지만 코사인 유사도가 높은 것들을 고르다 보면 순환적인..

sae-vis tutorial

SAE-VIS 데모참고: 이것이 최종 버전 데모입니다. (첫 번째 및 두 번째 이전 버전은 최신 버전의 라이브러리를 나타내지 않습니다.)이 Colab 파일은 제가 만든 오픈소스 희소 오토인코더 시각화 도구(sparse autoencoder visualizer)를 시연하기 위해 생성되었습니다. 자세한 내용은 여기에서 확인할 수 있습니다. 추가적으로 참고할 링크들은 다음과 같습니다:GitHub 저장소개발자 가이드: 코드베이스를 이해하고 기여하고자 하는 분들을 위한 자료사용자 가이드: 코드베이스의 모든 기능을 이해하고자 하는 분들을 위한 자료 (이 Colab을 따라 읽는 것도 또 다른 방법이며, 대부분 자가 설명적입니다)이 Colab에서는 두 가지 종류의 시각화 방법을 시연합니다:특징 중심 시각화: 단일 특징..

인공지능/XAI 2024.10.31
728x90
728x90