https://arxiv.org/abs/2405.14860
결국 여태까지 SAE 진행한 것과 큰 차이점은 없지만 코사인 유사도가 높은 것들을 고르다 보면 순환적인 구조를 가진다고 합니다.
아래 사진과 같게 말이죠
- 문제 제기 및 연구 배경
최근 언어 모델 연구에서는 고차원 개념을 '일차원적 특징'으로 표현한다는 가설이 있었으나, 이 논문은 일부 언어 모델 표현이 다차원적임을 제안합니다. 연구진은 특히 일차원적인 선형 특징이 아닌 다차원적 구조를 가지고 있는지, 그리고 이러한 다차원적 특징이 모델 계산에 본질적 역할을 하는지를 탐구합니다. - 연구 방법
다차원적 특징을 찾기 위해 Sparse Autoencoder(SAE)를 활용해 GPT-2와 Mistral 7B 모델에서 다차원적 특징을 자동으로 찾아내는 방식을 제시했습니다. SAE를 통해 특징들을 해체하여 해석 가능하게 만들고, 일차원적 특징으로는 분해할 수 없는 고유한 다차원 특징을 확인합니다. 이 과정에서, 요일과 달을 나타내는 순환적 구조를 포함한 다차원적 특징이 발견되었습니다. - 주요 방법
- 정의 정립: 논문에서는 다차원적 특징을 명확히 정의하고, 그것이 독립적이거나 비공존적 특징으로 분해될 수 없는지 여부에 기반하여 다차원 특징으로 판단합니다.
- SAE와 군집화: SAE의 특징 사전을 군집화하여, 다차원적 특성을 T-직교(T-orthogonal) 공간으로 분리합니다.
- 패칭 실험: Mistral 7B와 Llama 3 8B 모델의 요일과 달 계산에서 순환적 표현이 핵심적으로 사용됨을 패칭 기법으로 검증합니다.
- 연구 결과
이 연구에서는 요일과 달을 나타내는 순환적 다차원 특징이 실제로 언어 모델의 계산에서 중요한 역할을 한다는 것을 확인했습니다. Mistral 7B와 Llama 3 8B가 특정 요일과 달의 순환적 특징을 사용해 계산을 수행하는 것이 관찰되었으며, 이는 다차원적 순환 구조가 계산의 기본 단위로 사용될 가능성을 시사합니다. - 한계점 및 논의
- 다차원적 특징 해석의 어려움: SAE로 다차원 특징을 찾아내는 것이 가능했지만, 모든 다차원 특징이 해석 가능하거나 유의미하지는 않습니다. 추가 연구가 필요할 수 있습니다.
- 모델 크기 제한: 연구는 8B 규모의 모델까지 실험을 진행했지만, 더 큰 모델에서는 특성이 보편화될 가능성도 제기됩니다.
- 다차원적 계산 메커니즘: 다차원적 표현을 실제 알고리즘에서 어떻게 활용할 수 있는지에 대해 구체적인 해답을 제공하지 못했습니다.
이 논문은 기존의 선형적 표현 가설을 넘어서 다차원적 구조와 그 표현 방식에 대해 제기하며, 향후 언어 모델의 다차원적 해석 연구와 AGI(인공지능 일반 지능) 개발 방향에 중요한 기초 자료를 제공합니다.
그럼 다차원적 특성을 어떻게 찾았는지 SAE구조의 기반을 추가하여 좀 더 자세하게 설명해줘
1. 문제 정의: 다차원적 특징 탐색의 필요성
일반적으로, 언어 모델의 내부 표현은 일차원적 특성(선형적 특징)으로 구성된다고 가정되어 왔습니다. 그러나 이 논문에서는 다차원적, 즉 비선형적인 특징이 존재할 가능성을 제기합니다. 이러한 특징을 식별하기 위해 기존의 방법으로는 어려움이 있었기 때문에 SAE 기반의 특징 탐색 방법이 제안되었습니다.
2. Sparse Autoencoder의 구조 및 기능
SAE는 입력을 더 낮은 차원으로 압축하고, 다시 원래의 입력으로 복원하는 신경망 구조입니다. 이 과정에서 다음과 같은 특성을 활용합니다:
- 과잉 완전 기저(Over-complete basis): SAE는 모델의 히든 상태를 과잉 완전 기저로 분해하여, 희소한 형태의 벡터 합으로 표현합니다. 이는 입력을 낮은 차원에서 재구성하며 중요한 정보만을 유지할 수 있게 합니다.
- 희소성 패널티(Sparsity Penalty): SAE는 특징이 필요한 경우에만 활성화되도록 하는 패널티 항을 추가하여, 희소성을 유지하면서도 다차원적 특징을 잘 드러낼 수 있습니다.
3. 다차원적 특징 탐지를 위한 SAE 활용 절차
- (1) 사전(dictionary) 학습: SAE는 GPT-2와 Mistral 7B 모델의 각 계층(layer)에서 히든 상태를 입력으로 받아, SAE의 사전 학습 과정을 통해 각 특징을 설명하는 기저(dictionary) 요소를 학습합니다.
- (2) 군집화: SAE가 학습한 사전 요소들을 코사인 유사도에 따라 연결하여, 유사성이 높은 사전 요소들을 군집화합니다. 특정 임계값(T)을 초과하는 연결만 유지하여, 군집의 각 부분공간(subspace)이 상호 T-직교가 되도록 만듭니다. 이 군집을 통해 다차원적 특성 공간을 구성할 수 있습니다.
- (3) 특징 재구성: 각 군집에 대해 활성화된 사전 요소들만 남겨두고 나머지는 제거하여, 특정 다차원적 특성에 해당하는 히든 상태의 재구성을 시도합니다. 이 과정에서 재구성된 히든 상태를 PCA 분석 등을 통해 2차원 평면으로 시각화함으로써, 원형(circular) 패턴을 확인할 수 있습니다.
4. 다차원적 특징 탐지 성공 사례
이 과정을 통해 GPT-2와 Mistral 7B에서 요일 및 달을 나타내는 원형 순환(circular) 특성을 발견했습니다. 즉, 특정 다차원적 특징이 단순 선형적 관계로 설명되지 않고 순환적 또는 공간적으로 배치되는 다차원 구조를 형성하는 것을 확인한 것입니다.
5. SAE 구조의 강점과 한계
- 강점: SAE는 비선형적인 고차원 특성을 식별할 수 있으며, 희소성 패널티로 인해 다차원적 특성을 효과적으로 분리합니다. 또한, 각 계층에서 SAE로부터 얻은 다차원 특징은 모델의 해석 가능성을 높이는 데 기여합니다.
- 한계: 논문에서는 일부 다차원적 특징을 성공적으로 식별했으나, 모든 고차원적 특징을 해석하기는 어려웠습니다. 또한, SAE의 군집화 알고리즘이 더 정교해질 필요가 있으며, 다차원적 특징이 더욱 큰 언어 모델에서 어떻게 나타날지에 대한 추가 연구가 필요합니다.
이처럼 SAE를 활용한 다차원적 특징 탐색 방법은 언어 모델 내부의 복잡한 계산 단위를 설명할 수 있는 잠재력을 제공하며, 향후 다차원적 특성을 활용한 언어 모델 해석 연구에 중요한 기초 자료로 활용될 수 있습니다.
군집화와 특징 재구성 부분이 이해가 잘 안가네
논문을 기반으로 상세하게, 이해하기 쉽게 예시를 들어 설명해줘
예제: 요일의 다차원적 특성 발견 과정
(1) 사전 요소 학습
먼저, Sparse Autoencoder(SAE)는 언어 모델의 히든 상태(즉, 각 단어가 입력될 때 생성되는 벡터)를 입력으로 받아서, 이를 다양한 기본 요소(사전 요소)로 분해합니다. 이 기본 요소들은 각기 다른 특징을 가지고 있으며, 어떤 요소는 ‘요일’이나 ‘달’ 같은 특정 개념을 표현할 수 있습니다.
(2) 사전 요소의 군집화
SAE가 학습한 사전 요소들은 저마다 다른 특징을 가질 수 있지만, 일부 요소들은 유사한 개념을 나타낼 수 있습니다. 예를 들어, "월요일," "화요일," "수요일" 같은 단어들이 언어 모델의 히든 상태에서 특정한 순환적 관계를 형성할 수 있습니다.
이제 이 요소들을 코사인 유사도에 따라 비교해 보면, 비슷한 특성을 가진 요소들은 높은 유사도를 나타낼 것입니다. SAE는 이러한 유사도 정보를 활용하여 유사한 요소들을 연결하고, 이를 하나의 군집(cluster)으로 묶습니다. 이때 임계값(T)을 설정하여, T보다 유사도가 낮은 연결은 무시하고, 유사도가 높은 요소들만 남겨 서로 밀접하게 연결된 군집을 형성합니다.
- 예를 들어, "월요일"과 "화요일"은 서로 높은 유사도를 보여 같은 군집에 속하게 됩니다. 이러한 군집은 요일을 나타내는 다차원적 공간을 구성합니다.
- 각 군집이 서로 다른 특징을 표현하게 되므로, 이 군집들은 서로 직교(T-직교)를 이룰 수 있습니다. 즉, 각 군집은 독립적인 다차원적 특징을 나타냅니다.
(3) 특징 재구성과 다차원적 구조 확인
군집이 형성된 후에는 이 군집을 바탕으로 언어 모델의 히든 상태를 재구성할 수 있습니다.
가령, "요일" 군집을 활용하여 모델의 히든 상태를 재구성한다면, 그 결과 요일이 순환적으로 배열되는 패턴을 관찰할 수 있습니다. 이를 시각화하기 위해 주로 PCA(주성분 분석)를 사용해 2차원 평면에 투영하여 봅니다.
- 요일의 경우 "월요일"부터 "일요일"까지가 원형(circular) 구조를 이룬다고 할 때, 이 패턴은 단순한 선형적(일차원적) 관계로 설명될 수 없습니다.
- 요일이 시간의 흐름에 따라 순환하듯, 이 군집의 구조도 순환적 형태를 가지게 됩니다. 따라서 이는 다차원적 특성(요일 군집의 다차원 구조)으로 해석될 수 있습니다.
요약
- SAE는 언어 모델의 히든 상태에서 ‘월요일,’ ‘화요일’ 같은 요일과 관련된 개념을 발견하고 이를 유사성에 따라 군집화합니다.
- 각 군집을 활용해 히든 상태를 재구성한 후, PCA로 투영해보면 요일들이 원형으로 배열되어 있는 구조가 나타납니다.
- 이렇게 순환적 다차원 구조가 발견되면, 이는 단순히 선형적 특성으로는 설명되지 않는다는 결론에 도달할 수 있게 됩니다.
이 과정을 통해 논문은 언어 모델 내부에 단순 선형 표현만이 아닌 다차원적, 순환적 표현이 존재한다는 것을 발견하게 됩니다.
아 그럼 특정 단어를 입력했을 때 강하게 반응하는 SAE의 Latent space 의 코사인 유사도를 비교해서 높은 것 들끼리의 집합을 만들었더니 순환적인 특징을 가지고, 2차원평면에 투형했더니 원형이라는 거네?
네, 맞습니다! 정확하게 이해하셨습니다.
구체적으로 말하자면, 특정 단어 입력에 강하게 반응하는 SAE의 Latent space 벡터들 간의 코사인 유사도를 비교하여, 유사도가 높은 것들끼리 군집화했더니, 해당 군집이 순환적인 특성을 가지는 패턴을 보인 것입니다. 이를 다시 2차원 평면에 투영(PCA 등) 해보면 원형 구조로 나타나, 요일이나 달처럼 순환적 개념을 담고 있는 다차원적 특징이 있다는 것을 시각적으로 확인하게 되었습니다.
이 과정에서 SAE는 단어가 가지는 숨겨진 다차원적 관계를 발견하는 데 중요한 역할을 하며, 단순 선형 특성으로 설명되지 않는 복잡한 관계를 드러낼 수 있게 됩니다.
그럼 이 논문에서 주장하는 것의 타당성과, 좀 더 색다른 접근 법이 뭐였는지 설명해줘
1. 논문의 핵심 주장과 타당성
- 핵심 주장: 이 논문은 언어 모델 내부의 모든 표현이 단순한 선형적, 일차원적 형태로만 구성되어 있지 않으며, 실제로는 다차원적이고 순환적 특성도 존재한다는 점을 강조합니다. 즉, 언어 모델이 개념을 단일 차원이 아닌 고유한 다차원 공간에서 표현할 수 있다는 것입니다. 이러한 주장은 단순히 모델의 파라미터를 해석하는 데 그치지 않고, 특정 개념의 본질을 모델이 어떻게 이해하고 있는지를 살펴보는 데 도움이 됩니다.
- 타당성: 이 주장은 SAE를 활용한 실험을 통해 뒷받침되었습니다. SAE는 희소성 패널티를 통해 중요한 특징만을 활성화시켜 히든 상태의 구조적 특성을 파악하기 좋습니다. SAE가 찾아낸 군집을 2차원 평면으로 투영했을 때 요일이나 달처럼 시간적 순환성을 가진 개념이 원형 형태로 나타났다는 실험 결과는, 이 논문의 가설이 단순 이론에 머물지 않고 실험적으로도 타당성을 입증했다고 볼 수 있습니다. 특히, GPT-2와 Mistral 7B 모델을 통해 일관성 있는 다차원적 특성을 발견했기에, 이 주장은 더욱 설득력을 가지게 됩니다.
2. 색다른 접근법: 다차원적 특성을 찾기 위한 방법론
이 논문은 기존의 선형적 특성 해석과 차별화되는 새로운 접근 방식을 몇 가지 사용했습니다.
- 다차원적 특징의 정의와 발견: 논문은 다차원적 특성의 개념을 구체적으로 정의하며, 이를 위해 SAE를 활용하여 군집화한 후 코사인 유사도를 활용한 군집 내 T-직교 특성을 탐색하는 방법을 제안했습니다. 이를 통해 기존의 일차원적 해석이 아닌 순환적 특성을 가진 다차원적 구조를 발견할 수 있었습니다. 이 접근은 단순히 특정 뉴런의 활성화 여부에 따른 해석이 아니라, 특정 개념이 다차원적 표현 공간에서 어떻게 분포하는지를 시각화하고, 이를 통해 모델의 계산 방식에 대한 심층적 통찰을 제공합니다.
- 원형 구조를 찾기 위한 비전형적 시각화: 요일과 같은 순환적인 개념은 단순히 나열된 특성이 아니라, 모델 내부에서 공간적으로 배치된 구조입니다. 이를 밝히기 위해 2차원 평면에 PCA로 투영하여 원형 배열을 찾아낸 것은 독특한 접근법입니다. PCA를 통해 특정 특성이 원형 배열을 이루는지를 시각화하는 방법은 기존 연구에서 쉽게 볼 수 없는 혁신적인 방식입니다.
- 패칭 실험을 통한 인과관계 검증: 모델이 다차원적 특징을 실제로 계산에 활용하는지 확인하기 위해 패칭 실험(activation patching)을 수행했습니다. 이는 특정 순환적 구조(예: 요일)의 부분 공간을 조작하여 결과에 미치는 영향을 분석하는 방법입니다. 이를 통해 다차원적 특성이 단순한 표현에 그치지 않고, 실제로 모델의 계산 단위로 활용된다는 사실을 실험적으로 증명했습니다.
3. 색다른 접근 방법의 의의와 추가 연구 방향
- 의의: 이 논문은 기존에 널리 받아들여졌던 '언어 모델은 모든 개념을 일차원적 벡터로 표현한다'는 가설에 의문을 제기하고, 다차원적 특성이 언어 모델에서 어떤 역할을 할 수 있는지 보여주었습니다. 특히 순환적 개념이 모델에서 어떻게 표현되고 계산에 이용되는지를 체계적으로 분석했다는 점에서 기념비적입니다.
- 추가 연구 방향: 이 논문이 발견한 다차원적 특성을 이용해 모델의 해석력을 높일 수 있는 다양한 방법을 탐색할 수 있습니다. 예를 들어, 요일이나 달과 같은 순환적 특성뿐만 아니라 감정이나 맥락 변화 등의 다차원적 개념을 추가로 찾고 분석하는 연구가 이어질 수 있습니다. 또한, 다른 종류의 오토인코더나 군집화 기법을 활용하여 더욱 정밀한 다차원적 특징 탐지가 가능한지도 연구해볼 수 있습니다.
이와 같이, 이 논문은 다차원적 구조를 고려한 새로운 관점과 실험적 증명을 통해 언어 모델 해석 연구의 새로운 길을 제시했습니다.