준비 중 - Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

인공지능/논문 리뷰 or 진행

준비 중 - Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet - 리뷰

이게될까 2024. 5. 29. 19:25

728x90

https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

Authors Adly Templeton*, Tom Conerly*, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, Alex Tamkin, Esin Durmus, Tr

transformer-circuits.pub

https://tomhenighan.com/

Tom Henighan

Language Models (Mostly) Know What They Know S Kadavath*, T Conerly, A Askell, T Henighan, D Drain, E Perez, N Schiefer, ZH Dodds, N DasSarma, E Tran-Johnson, S Johnston, S El-Showk, A Jones, N Elhage, T Hume, A Chen, Y Bai, S Bowman, S Fort, D Ganguli, D

tomhenighan.com

이 아저씨 재밌어 보이는 논문 많이 쓰셨네요

이 논문은 인공지능 모델의 학습 및 해석에 관한 새로운 접근 방식을 다루고 있습니다. 주로 Sparse Autoencoder(SAE)를 사용하여 모델의 내부 작동을 분석하고 해석 가능한 특징들을 추출하는 방법을 제안하고 있습니다. 이를 통해 Claude 3 Sonnet 모델에 적용된 사례를 중심으로 설명하고 있습니다.

주요 내용 요약

배경 및 동기:
- 선형 표현 가설(linear representation hypothesis): 신경망이 의미 있는 개념을 활성화 공간의 방향으로 나타낸다는 이론.
- 중첩 가설(superposition hypothesis): 고차원 공간에서 거의 직교하는 방향들을 사용해 더 많은 특징을 나타낼 수 있다는 이론.
- 이러한 가설을 바탕으로 Dictionary Learning을 활용하여 모델의 특징을 해석하는 접근 방식을 제안.
Sparse Autoencoder(SAE):
- SAE는 모델의 활성화를 더 해석 가능한 조각으로 분해하는 목적을 가짐.
- SAE는 두 개의 층(encoder와 decoder)으로 구성되며, L1 정규화를 사용하여 활성화의 희소성을 유지함.
- 모델의 활성화를 선형 조합으로 분해하여, 활성화된 특징들이 모델의 특정 입력에 대한 반응을 설명하도록 함.
Claude 3 Sonnet 모델 적용:
- 중간층의 잔차 스트림 활성화에 SAE를 적용하여 학습함.
- 다양한 크기의 SAE 모델(1M, 4M, 34M 특징)을 학습하여 성능을 비교함.
- 각 SAE 모델은 주어진 토큰에 대해 300개 미만의 활성화된 특징을 가지며, 모델 활성화의 65% 이상의 분산을 설명함.
특징 해석 및 평가:
- 특징의 해석 가능성을 평가하기 위해 몇 가지 예시를 제시함.
- 예를 들어, 'Golden Gate Bridge' 특징은 해당 다리와 관련된 문맥에서 활성화됨.
- 자동화된 해석 방법을 사용하여 특징의 구체성을 평가함.
모델의 행동에 미치는 영향:
- 특정 특징을 인위적으로 활성화하여 모델의 출력을 조정할 수 있음을 보임.
- 예를 들어, 'Golden Gate Bridge' 특징을 강화하면 모델이 관련된 내용으로 응답함.
고급 특징:
- 코드 오류나 특정 기능을 나타내는 고급 특징도 분석함.
- 예를 들어, 특정 함수가 덧셈을 수행하는지를 인식하는 특징 등이 있음.
안전 관련 특징:
- 모델의 안전성을 보장하기 위해 유해한 코드, 편향, 아첨, 기만 및 조작과 관련된 특징들을 식별하고 제어하는 방법을 제안함.
- 이러한 특징을 활용하여 모델의 안전성을 향상시킬 수 있는 가능성을 제시함.

결론

이 논문은 Sparse Autoencoder를 활용하여 대규모 언어 모델의 내부 작동을 분석하고 해석 가능한 특징들을 추출하는 방법을 제안합니다. 이를 통해 모델의 행동을 더 잘 이해하고, 안전성을 보장하기 위한 다양한 방법을 탐구합니다. 이러한 접근 방식은 향후 AI 모델의 해석 가능성과 안전성을 높이는 데 중요한 기여를 할 것으로 기대됩니다.

저작자표시

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Data-driven Energy Management Strategy for Plug-in Hybrid Electric Vehicles with Real-World Trip Information - 리뷰 (1)	2024.07.05
준비 중 - Evaluating the World Model Implicit in a Generative Model - 리뷰 (0)	2024.06.23
진행중 - Slice and Conquer: A Planar-to-3D Framework for Efficient Interactive Segmentation of Volumetric Images - 리뷰 (10)	2024.05.28
feature 조절을 통한 LLM 변경 - Mapping the Mind of a Large Language Model - 리뷰 (0)	2024.05.28
준비중 - Counterfactual Mix-Up for Visual Question Answering - 리뷰 - 준비중 (0)	2024.05.26

현재글준비 중 - Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet - 리뷰

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

공대생 도전 일지