인공지능/논문 리뷰 or 진행

준비 중 - Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet - 리뷰

이게될까 2024. 5. 29. 19:25
728x90
728x90

https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

 

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

Authors Adly Templeton*, Tom Conerly*, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, Alex Tamkin, Esin Durmus, Tr

transformer-circuits.pub

https://tomhenighan.com/

 

Tom Henighan

Language Models (Mostly) Know What They Know S Kadavath*, T Conerly, A Askell, T Henighan, D Drain, E Perez, N Schiefer, ZH Dodds, N DasSarma, E Tran-Johnson, S Johnston, S El-Showk, A Jones, N Elhage, T Hume, A Chen, Y Bai, S Bowman, S Fort, D Ganguli, D

tomhenighan.com

이 아저씨 재밌어 보이는 논문 많이 쓰셨네요

 

이 논문은 인공지능 모델의 학습 및 해석에 관한 새로운 접근 방식을 다루고 있습니다. 주로 Sparse Autoencoder(SAE)를 사용하여 모델의 내부 작동을 분석하고 해석 가능한 특징들을 추출하는 방법을 제안하고 있습니다. 이를 통해 Claude 3 Sonnet 모델에 적용된 사례를 중심으로 설명하고 있습니다.

주요 내용 요약

  1. 배경 및 동기:
    • 선형 표현 가설(linear representation hypothesis): 신경망이 의미 있는 개념을 활성화 공간의 방향으로 나타낸다는 이론.
    • 중첩 가설(superposition hypothesis): 고차원 공간에서 거의 직교하는 방향들을 사용해 더 많은 특징을 나타낼 수 있다는 이론.
    • 이러한 가설을 바탕으로 Dictionary Learning을 활용하여 모델의 특징을 해석하는 접근 방식을 제안.
  2. Sparse Autoencoder(SAE):
    • SAE는 모델의 활성화를 더 해석 가능한 조각으로 분해하는 목적을 가짐.
    • SAE는 두 개의 층(encoder와 decoder)으로 구성되며, L1 정규화를 사용하여 활성화의 희소성을 유지함.
    • 모델의 활성화를 선형 조합으로 분해하여, 활성화된 특징들이 모델의 특정 입력에 대한 반응을 설명하도록 함.
  3. Claude 3 Sonnet 모델 적용:
    • 중간층의 잔차 스트림 활성화에 SAE를 적용하여 학습함.
    • 다양한 크기의 SAE 모델(1M, 4M, 34M 특징)을 학습하여 성능을 비교함.
    • 각 SAE 모델은 주어진 토큰에 대해 300개 미만의 활성화된 특징을 가지며, 모델 활성화의 65% 이상의 분산을 설명함.
  4. 특징 해석 및 평가:
    • 특징의 해석 가능성을 평가하기 위해 몇 가지 예시를 제시함.
    • 예를 들어, 'Golden Gate Bridge' 특징은 해당 다리와 관련된 문맥에서 활성화됨.
    • 자동화된 해석 방법을 사용하여 특징의 구체성을 평가함.
  5. 모델의 행동에 미치는 영향:
    • 특정 특징을 인위적으로 활성화하여 모델의 출력을 조정할 수 있음을 보임.
    • 예를 들어, 'Golden Gate Bridge' 특징을 강화하면 모델이 관련된 내용으로 응답함.
  6. 고급 특징:
    • 코드 오류나 특정 기능을 나타내는 고급 특징도 분석함.
    • 예를 들어, 특정 함수가 덧셈을 수행하는지를 인식하는 특징 등이 있음.
  7. 안전 관련 특징:
    • 모델의 안전성을 보장하기 위해 유해한 코드, 편향, 아첨, 기만 및 조작과 관련된 특징들을 식별하고 제어하는 방법을 제안함.
    • 이러한 특징을 활용하여 모델의 안전성을 향상시킬 수 있는 가능성을 제시함.

결론

이 논문은 Sparse Autoencoder를 활용하여 대규모 언어 모델의 내부 작동을 분석하고 해석 가능한 특징들을 추출하는 방법을 제안합니다. 이를 통해 모델의 행동을 더 잘 이해하고, 안전성을 보장하기 위한 다양한 방법을 탐구합니다. 이러한 접근 방식은 향후 AI 모델의 해석 가능성과 안전성을 높이는 데 중요한 기여를 할 것으로 기대됩니다.

728x90