반응형

인공지능/XAI 21

sae-vis tutorial

SAE-VIS 데모참고: 이것이 최종 버전 데모입니다. (첫 번째 및 두 번째 이전 버전은 최신 버전의 라이브러리를 나타내지 않습니다.)이 Colab 파일은 제가 만든 오픈소스 희소 오토인코더 시각화 도구(sparse autoencoder visualizer)를 시연하기 위해 생성되었습니다. 자세한 내용은 여기에서 확인할 수 있습니다. 추가적으로 참고할 링크들은 다음과 같습니다:GitHub 저장소개발자 가이드: 코드베이스를 이해하고 기여하고자 하는 분들을 위한 자료사용자 가이드: 코드베이스의 모든 기능을 이해하고자 하는 분들을 위한 자료 (이 Colab을 따라 읽는 것도 또 다른 방법이며, 대부분 자가 설명적입니다)이 Colab에서는 두 가지 종류의 시각화 방법을 시연합니다:특징 중심 시각화: 단일 특징..

인공지능/XAI 2024.10.31

latent space, l1 coefficient, context length에 따른 Sparse Autoencoder 학습

2024.10.15 - [인공지능/자연어 처리] - l1 Coefficient에 따른 Sparse Autoencoder 학습, 출력 확인 l1 Coefficient에 따른 Sparse Autoencoder 학습, 출력 확인학습 완료 직전에 네트워크 오류로 허깅페이스에서 데이터를 가져오지 못하여 60%, 80%만 확인할 수 있습니다...ㅠ l1 coefficient0.01151050100l1 Loss 1205.29108.9743.2535.9213.9712.47mse loss2.24153.03287376.66764.88782yoonschallenge.tistory.com이전 글에 좀 더 작은 latent space 있습니다. l1 coefficient0.010.050.10.010.050.1latent_spa..

인공지능/XAI 2024.10.29

l1 Coefficient에 따른 Sparse Autoencoder 학습, 출력 확인

학습 완료 직전에 네트워크 오류로 허깅페이스에서 데이터를 가져오지 못하여 60%, 80%만 확인할 수 있습니다...ㅠ l1 coefficient0.01151050100l1 Loss 1205.29108.9743.2535.9213.9712.47mse loss2.24153.03287376.66764.88782.06over_all loss14.29262503.28735.831463.392028.89below_1e-500015839964026below_1e-600015839804026dead_features00015839114017ce_loss_score   0.810.320.33l03650.7183.5820.788.270.630.47ce_loss_with_sae   4.99.019.01ce_loss_withou..

인공지능/XAI 2024.10.15

Sparse Autoencoder 학습 - l1 regularization coefficient에 따른 학습 변화

지금 Llama 3.2 1B 버전으로 SAE 6개를 만들고 있습니다.각각의 Context_length와 epoch, Latent space size는 다 같은데 l1 regularization coefficient만 다릅니다.그래서 l1 regularization coefficient에 따른 각각 SAE들의 Mse Loss, Sparsity 등을 비교해보려고 합니다.l1 coefficient0.01151050100l1 Loss 1298.54412108.1557647.2919631.1267517.7765212.89535mse loss2.52211156.46039287.31024372.92572791.67743808.39392over_all loss15.50755264.61615523.77002734.193..

인공지능/XAI 2024.10.13

Sparse Autoencoder 학습과 문제점

2024.09.27 - [인공지능/자연어 처리] - LLama3 학습 데이터 변환하여 LLama3.2 Sparse Autoencoder 학습하기 LLama3 학습 데이터 변환하여 LLama3.2 Sparse Autoencoder 학습하기기존에 공개된 학습 데이터를 통해 3.2에 사용할 수 있는 학습 데이터를 만들어 보겠습니다.import csvfrom datasets import load_datasetfrom transformers import AutoTokenizerfrom tqdm import tqdm # 진행 상태 표시를 위한yoonschallenge.tistory.com학습 하는 방법은 위의 글을 확인하면 볼 수 있습니다. 그리고 아래 글에서 학습 도중에 나타났던 문제점을 확인할 수 있습니다.20..

인공지능/XAI 2024.10.08

Sae 학습에 따른 dead_features

context_length128128128expansion_factor163264latent_size49,15298,304196,608below_1e-5(sparsity)42,60291,309171,941head_features42,25788,793169,247죽은 feature 비율 85.97%90.32%86.08%sparsity한 것 중 죽은 feature 비율 99.19%97.24%98.43%학습 진행62%43%19%62% 정도 학습했는데... 너무 죽네요....?여긴 43% 학습했습니다.음 상당하게 죽네요....여긴 19% 학습했습니다. 더 확인해 봐야겠지만 이 정도는 너무 심한데...  https://www.lesswrong.com/posts/f9EgfLSurAiqRJySD/open-source..

인공지능/XAI 2024.10.04

LLama3 학습 데이터 변환하여 LLama3.2 Sparse Autoencoder 학습하기

기존에 공개된 학습 데이터를 통해 3.2에 사용할 수 있는 학습 데이터를 만들어 보겠습니다.import csvfrom datasets import load_datasetfrom transformers import AutoTokenizerfrom tqdm import tqdm # 진행 상태 표시를 위한 tqdmfrom huggingface_hub import HfApi, loginlogin('') # 허깅 페이스 api 키로 로그인해서 데이터 셋, 토크나이저 가져올 수 있도록 합니다.# 데이터셋 로드dataset = load_dataset("chanind/openwebtext-llama3")# Meta-Llama-3-8B 토크나이저 로드 (디코딩용)tokenizer = AutoTokenizer.from_..

인공지능/XAI 2024.09.27

SAE 통해 특정 feature를 강화시켜 LLM 출력 변형하기 - 미스트랄 mistral 7b

어우 여기까지 오는데도 너무 머네요 ㅎㅎ,,,,일단 코드 작성하면서 설명하겠습니다.import osfrom setproctitle import setproctitlesetproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = ""항상 하는 이름과 GPU 설정하기COLAB = Falsefrom IPython import get_ipython # type: ignoreipython = get_ipython(); assert ipython is not Noneipython.run_line_magic("load_ext", "autoreload")ipython.run_line_magic("autoreload", "2")이것도 없애도 되는 것 같은데....다음번엔 지워볼게요impo..

인공지능/XAI 2024.09.26

SAE Tutorial summarize

기존에 진행했던 튜토리얼들이 너무 길어서 짧게 줄여봤습니다.최대한 설명도 적으면서 저도 나중에 기억할 수 있게 적어볼게요import osfrom setproctitle import setproctitlesetproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = "0"항상하는 이름이랑 gpu번호 적기!import torchfrom tqdm import tqdmimport plotly.express as pximport pandas as pd# Imports for displaying vis in Colab / notebooktorch.set_grad_enabled(False)# For the most part I'll try to import functions and c..

인공지능/XAI 2024.09.24

Sparse Autoencoder 시작

SAE를 통해 LLM의 데이터를 변경, 조작해보자가 시작되었습니다!!!!https://transformer-circuits.pub/2024/scaling-monosemanticity/ Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 SonnetAuthors Adly Templeton*, Tom Conerly*, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte ..

인공지능/XAI 2024.09.19
728x90
728x90