반응형

인공지능/XAI 21

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 6

2024.11.12 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 5논문에 나온 이 표와 제가 만든 SAE 모델을 비교해 봐야 합니다.Explicit이랑 Implicit는 무시하고 숫자만 보면 됩니다.이 결과가 8layer라서 16, 24까지만 더 해보겠습니다.편향이 많이 줄었습니다...? 확실하게 편향이 줄어든 것을 볼 수 있었고 표도 함 가져와봐야 겠네요 JobDominanceMale ProbabilityFemale ProbabilityDiverse ProbabilityMale Probability (No SAE)Female Probability (No SAE)Male Probability Change (%)Female Probabil..

인공지능/XAI 2024.12.01

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 5

2024.11.08 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 4조금씩 잡혀가는 모습입니다... import osfrom setproctitle import setproctitlesetproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = "0"import torchfrom tqdm import tqdmimport plotly.express as pximport pandas as pdimport numpy as np# Imports for displaying vis in Colab / notebooktorch.set_grad_enabled(False)# For the most part I'll try ..

인공지능/XAI 2024.11.30

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 4

2024.11.07 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 3  SAE는 7번 레이어에 붙어있습니다.11레이어까지 있으니까 한 번 쭉 확인해봅시다....JobGender DominanceFemale PercentageCosine Similarity with WomanCosine Similarity with Manskincare specialistFemale98.20.8852370.851516kindergarten teacherFemale96.80.8798330.844357childcare workerFemale94.60.9086590.854653secretaryFemale92.50.8668990.826608hairstylistFem..

인공지능/XAI 2024.11.29

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 3

2024.11.05 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 2 이번에는 SAE의 Feature에서 COS 유사도를 구하는 것이 아니라 그 이후의 레이어에서 확인해 보도록 하겠습니다. JobGender DominanceFemale PercentageCosine Similarity with WomanCosine Similarity with Manskincare specialistFemale98.20.6511860.556518kindergarten teacherFemale96.80.6494910.514379childcare workerFemale94.60.716210.519848secretaryFemale92.50.5833850.5458..

인공지능/XAI 2024.11.28

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 2

2024.11.05 - [인공지능/XAI] - Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 1 이번에는 구글의 잼마 2 27b 모델입니다.https://huggingface.co/google/gemma-2-27b google/gemma-2-27b · Hugging FaceThis repository is publicly accessible, but you have to accept the conditions to access its files and content. To access Gemma on Hugging Face, you’re required to review and agree to Google’s usage license. To do this, plea..

인공지능/XAI 2024.11.27

Sparse Autoencoder를 통한 LLM의 Bias 줄이기 - 성에 따른 직업 1

2024.11.05 - [인공지능/논문 리뷰 or 진행] - Bias and Fairness in Large Language Models: A Survey Bias and Fairness in Large Language Models: A Surveyhttps://arxiv.org/abs/2309.00770 Bias and Fairness in Large Language Models: A SurveyRapid advancements of large language models (LLMs) have enabled the processing, understanding, and generation of human-like text, with increasing integration into systemsyoon..

인공지능/XAI 2024.11.26

SelfIE 주간 세미나 발표

슬라이드 내용 여기 보이는 그림은 입력 문장 '지구상에서 가장 높은 산의 고도'가 모델에 주입되었을 때, 각 레이어가 정보를 처리하는 과정을 시각화한 것입니다.Layer 1에서는 단순히 단어 수준의 기본 정보를 처리하며, '산'이나 '지구'와 같은 핵심 개념들이 나타납니다. 이후 Layer 2에서는 문맥을 반영하여 더 복잡한 정보를 추출하며, '지구상에서 가장 높은 산'과 같은 문장이 형성됩니다. 마지막으로, Layer L에서는 최종적으로 '에베레스트 산의 고도는 8,848.86m'라는 구체적인 답변이 생성됩니다.SelfIE의 핵심 혁신은 모델의 내부 임베딩을 자연어로 해석함으로써, 모델이 단순히 결과를 산출하는 것을 넘어 내부적으로 어떻게 추론했는지를 투명하게 설명할 수 있다는 점에 있습니다. 이를 통..

인공지능/XAI 2024.11.25

SelfIE : 세미나 발표 준비

드디어 내일 세미나 발표라 준비해보겠습니다. 그림을 보시면, 입력 문장인 '지구상에서 가장 높은 산의 고도'라는 문장이 모델에 들어갔을 때, 각 레이어가 어떤 정보를 처리하는지 시각적으로 표현되고 있습니다.Layer 1은 단순히 단어 수준의 정보를 처리하며, '산'이나 '지구'와 같은 기본 개념이 나타납니다.Layer 2로 가면서 문맥에 따라 더 복잡한 정보를 추출하며, '지구상에서 가장 높은 산'과 같은 문장이 형성됩니다.마지막으로, Layer L에서는 최종적으로 '에베레스트 산의 고도는 8,848.86m'라는 구체적인 답변을 생성합니다.이 기술의 독창성은 모델의 내부 임베딩을 활용하여 모델의 추론 과정을 자연어로 설명할 수 있다는 점에 있습니다. 이를 통해 모델이 단순히 결과를 산출하는 것이 아니라,..

인공지능/XAI 2024.11.24

🤳SelfIE: Self-Interpretation of Large Language Model Embeddings - 세미나 준비

https://selfie.cs.columbia.edu/ SelfIE: Self-Interpretation of Large Language Model EmbeddingsHow do large language models (LLMs) obtain their answers? The ability to explain and control an LLM's reasoning process is key for reliability, transparency, and future model developments. We propose SelfIE (Self-Interpretation of Embeddings), a frameworkselfie.cs.columbia.edu이 논문은 임베딩 벡터를 해석하여 LLM 모델 내..

인공지능/XAI 2024.11.18

Sparse Autoencoder Test - l1_Coefficient, Context_length, Latent_space_size

기존 라마 1B의 출력입니다. 결론적으론 제 SAE를 못 쓰게 되었는데 파라미터 업데이트가 문제였네요....8일전 업데이트해서 저 파라미터에 대한 SAE가 아니기 때문에 이전 Llama를 사용해야 해서.....일단... 시작은 "yoonLM/sae_llama3.2org_1B_512_16_l1_100" 모델입니다.1B 뒤부터 Contest_length, Latent_space_scale, l1_coefficient 입니다.모델 부르는 방법은 아래와 같습니다.import osfrom setproctitle import setproctitlesetproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = "0"import torchfrom tqdm import tqdmimport..

인공지능/XAI 2024.10.31
728x90
728x90