반응형

sparse autoencoder 6

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 6

2024.11.12 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 5논문에 나온 이 표와 제가 만든 SAE 모델을 비교해 봐야 합니다.Explicit이랑 Implicit는 무시하고 숫자만 보면 됩니다.이 결과가 8layer라서 16, 24까지만 더 해보겠습니다.편향이 많이 줄었습니다...? 확실하게 편향이 줄어든 것을 볼 수 있었고 표도 함 가져와봐야 겠네요 JobDominanceMale ProbabilityFemale ProbabilityDiverse ProbabilityMale Probability (No SAE)Female Probability (No SAE)Male Probability Change (%)Female Probabil..

인공지능/XAI 2024.12.01

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 5

2024.11.08 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 4조금씩 잡혀가는 모습입니다... import osfrom setproctitle import setproctitlesetproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = "0"import torchfrom tqdm import tqdmimport plotly.express as pximport pandas as pdimport numpy as np# Imports for displaying vis in Colab / notebooktorch.set_grad_enabled(False)# For the most part I'll try ..

인공지능/XAI 2024.11.30

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 1

2024.11.05 - [인공지능/논문 리뷰 or 진행] - Bias and Fairness in Large Language Models: A Survey Bias and Fairness in Large Language Models: A Surveyhttps://arxiv.org/abs/2309.00770 Bias and Fairness in Large Language Models: A SurveyRapid advancements of large language models (LLMs) have enabled the processing, understanding, and generation of human-like text, with increasing integration into systemsyoon..

인공지능/XAI 2024.11.26

The Geometry of Concepts: Sparse Autoencoder Feature Structure - 논문 리뷰

https://arxiv.org/abs/2410.19750 The Geometry of Concepts: Sparse Autoencoder Feature StructureSparse autoencoders have recently produced dictionaries of high-dimensional vectors corresponding to the universe of concepts represented by large language models. We find that this concept universe has interesting structure at three levels: 1) The "atomicarxiv.org원자 수준: 단어 관계(예: "Austria:Vienna::Switz..

NOT ALL LANGUAGE MODEL FEATURES ARE LINEAR - 논문 리뷰

https://arxiv.org/abs/2405.14860 Not All Language Model Features Are LinearRecent work has proposed that language models perform computation by manipulating one-dimensional representations of concepts ("features") in activation space. In contrast, we explore whether some language model representations may be inherently multi-dimearxiv.org 결국 여태까지 SAE 진행한 것과 큰 차이점은 없지만 코사인 유사도가 높은 것들을 고르다 보면 순환적인..

sae-vis tutorial

SAE-VIS 데모참고: 이것이 최종 버전 데모입니다. (첫 번째 및 두 번째 이전 버전은 최신 버전의 라이브러리를 나타내지 않습니다.)이 Colab 파일은 제가 만든 오픈소스 희소 오토인코더 시각화 도구(sparse autoencoder visualizer)를 시연하기 위해 생성되었습니다. 자세한 내용은 여기에서 확인할 수 있습니다. 추가적으로 참고할 링크들은 다음과 같습니다:GitHub 저장소개발자 가이드: 코드베이스를 이해하고 기여하고자 하는 분들을 위한 자료사용자 가이드: 코드베이스의 모든 기능을 이해하고자 하는 분들을 위한 자료 (이 Colab을 따라 읽는 것도 또 다른 방법이며, 대부분 자가 설명적입니다)이 Colab에서는 두 가지 종류의 시각화 방법을 시연합니다:특징 중심 시각화: 단일 특징..

인공지능/XAI 2024.10.31
728x90
728x90