https://arxiv.org/abs/1909.04925
How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations
Bidirectional Encoder Representations from Transformers (BERT) reach state-of-the-art results in a variety of Natural Language Processing tasks. However, understanding of their internal functioning is still insufficient and unsatisfactory. In order to bett
arxiv.org
| 문제 상황 (Problem) | BERT가 다양한 NLP task에서 높은 성능을 보이지만, “어떻게 정답을 찾는지”, “어느 레이어가 어떤 역할을 하는지”, “오답은 왜 발생하는지”에 대한 해석이 부족함. 기존 연구는 대부분 attention weight 분석에 국한되어 있음. |
| 연구 목표 | ① BERT가 질문을 사람처럼 단계적으로 해결하는지 ② 각 레이어가 서로 다른 기능을 수행하는지 ③ Fine-tuning이 hidden representation에 미치는 영향 ④ Layer 분석으로 오답 원인을 파악할 수 있는지 |
| 방법론 (Method) | 🔹 Hidden State 분석 (Layer-wise) – PCA, t-SNE, ICA로 시각화 – token 위치 변화 추적 🔹 Probing Task 적용 (Edge Probing) – NER, Coref, Relation, Question Type, Supporting Fact 🔹 Fine-tuned vs Pre-trained 비교 🔹 정답/오답 케이스별 클러스터 변화 관찰 |
| 모델 | BERT-base (12층), BERT-large (24층) GPT-2 small (117M, 비교용 시각화) |
| 데이터셋 (QA Task) | 📌 SQuAD 1.1 – 단일 문장 기반 QA 📌 HotpotQA – 멀티호프 QA (Distractor / SP) 📌 bAbI – 인공적 논리 추론 QA (20개 소과제) |
| 학습 방법 (Training) | - Huggingface PyTorch BERT 사용 - 각 task 별로 fine-tuning (5 epoch) - grid search로 learning rate, batch size 튜닝 - bAbI: span prediction + classification 두 방식 실험 - HotpotQA: context 길이 맞추기 위해 distractor 축소 |
| 실험 결과 (Results) | 🔹 SQuAD: Human-level 성능 달성 🔹 HotpotQA: Distractor 설정에선 Supporting Fact 식별 성능 저조 🔹 bAbI: 대부분 task에서 거의 완벽, GPT-2도 높은 성능 🔹 Probing: - NER: 초기 layer (2~4층) - Coref/Relation: 중간 layer - Supporting Fact: 마지막 layer에서 peak - 마지막 레이어는 task-specific info만 남고 general info 감소 |
| 주요 결과 (발견) | ✅ BERT는 질문 응답 시 4단계 추론 패턴을 따름: 1️⃣ Semantic Clustering 2️⃣ Entity Matching 3️⃣ Question-Fact Matching 4️⃣ Answer Extraction ✅ Layer마다 역할이 다름 (모듈성 있음) ✅ Fine-tuning은 task-specific info를 강화하지만 general info는 일부 잃음 ✅ 오답 시 supporting fact 선택 실패가 early layer에서 확인 가능 |
| 기여 (Contribution) | 🔸 Attention이 아닌 Hidden State 기반 해석 방법론 제시 🔸 Layer별 모듈성 및 역할 분리 실증 🔸 오답 원인 분석과 디버깅 가능성 제시 🔸 QA task를 통한 Transformer 추론 방식 해석 모델 제안 |
| 한계 (Limitation) | ❌ GPT-2에 대한 probing 미비 (qualitative 분석만) ❌ Probing task 성능 기반 해석이므로 deep reasoning 해석에는 제약 ❌ Pre-trained embedding 유지 여부에 대한 실험은 제한적 |
| 논문 | 주요 내용 | 차이점 |
| Tenney et al. (2019), "Edge Probing" What do you learn from context? |
BERT, ELMo, GPT 등에서 문장 구조와 의미 정보를 probing task로 분석. 다양한 NLP 태스크를 통해 사전학습 representation을 해석 | - 사전학습 모델만 다룸, fine-tuned 모델은 제외 - QA task가 아닌 문장 수준의 일반 구조 분석에 초점 |
| Liu et al. (2019), "Linguistic Knowledge and Transferability" | 사전학습된 BERT에서 각 레이어의 전이 가능성(transferability)을 정량적으로 분석 | - 이 논문도 fine-tuning 이후 변화는 분석하지 않음 - QA task에 특화된 probing 없음 |
| Jain & Wallace (2019), "Attention is not Explanation" | Attention은 해석에 적합하지 않다는 비판적 시각 제시. Adversarial test로 attention의 불안정성 실험 | - 본 논문은 이 주장을 기반으로 attention이 아닌 hidden state 분석으로 대안 제시 |
| Qiao et al. (2019) Understanding the Behaviors of BERT in Ranking |
랭킹(task-specific)에서 BERT의 attention과 레이어 분석 | - 분석 대상이 Ranking 모델, QA task와 다름 - attention 위주 분석 |
| Hupkes et al. (2017) | Recurrent/Recursive NN의 진단 분류기(DC)를 활용한 해석 방법 제안 | - CNN, RNN 중심. Transformer 구조가 아님 |
| Li et al. (2016), Representation Erasure | 특정 벡터 차원을 지워서 그 영향 분석 → 어떤 정보가 어느 차원에 있는지 관찰 | - 개별 차원의 분석이 중심이고, layer-wise 변화와 phase 추론은 아님 |
| Zhang & Zhu (2018), CNN interpretability survey | CNN 중심의 해석 방식 정리 및 시각화 접근법 제시 | - Transformer 구조와는 무관 |
| 분석 대상 | 기존 연구는 대부분 사전학습(pre-trained) 모델만 다룸 → 본 논문은 파인튜닝된 BERT를 대상으로 실제 QA task에서 어떤 처리가 일어나는지 분석 |
| 분석 방식 | 기존 연구는 주로 attention weight나 probing task 성능만 측정 → 본 논문은 token representation의 변화를 layer-wise로 추적하고 시각화 + clustering 분석을 통해 BERT의 reasoning phase를 제안 |
| 분석 목적 | 기존은 주로 "언어 정보가 어디에 존재하는가?"에 관심 → 본 논문은 "질문에 답할 때 어떤 reasoning 과정을 거치는가?"라는 과정 중심적 질문에 답함 |
| 추론 구조의 제안 | 기존 연구는 기능 유무를 평가 → 본 논문은 BERT가 실제로 4단계 reasoning phase (Semantic Clustering → Entity Matching → Question-Fact Matching → Answer Extraction)를 거친다는 구조적 통찰을 제공 |
| 오답 분석 | 기존 연구는 주로 정답 예측의 정확성만 분석 → 본 논문은 오답 발생 시 어느 레이어에서 문제가 발생했는지까지 분석 가능하게 함 |
❓ (1) BERT는 사람처럼 문제를 분해하여 해결하는가?
| 사용한 방법 | - SQuAD, HotpotQA, bAbI 등 다양한 QA task에 대해 BERT의 토큰 representation 변화를 layer별로 시각화 (PCA 등) - 질문/문맥/정답 토큰을 색상/형태로 구분해 t-SNE/PCA 시각화로 추론 과정 추적 |
| 사용 이유 | 사람이 문제를 이해할 때도 단계를 거쳐 정답을 찾듯, BERT가 유사한 단계적 처리 과정(phase)을 거치는지 확인하기 위해 |
| 결과 | - BERT는 질문에 답하기 위해 다음과 같은 4단계 reasoning phase를 거침: ① Semantic Clustering (기본 단어 의미 학습) ② Entity/Relation Matching (문맥 내 정보 연결) ③ Question-Fact Matching (문제와 관련된 문장 찾기) ④ Answer Extraction (정답 분리 및 추출) → 사람처럼 정보 구조화 → 관련 정보 필터링 → 정답 도출의 과정 유사성 확인 |
❓ (2) 특정 레이어가 특정 역할을 담당하는가?
| 사용한 방법 | - Probing Task (Edge Probing)를 각 레이어의 hidden state에 적용: → Named Entity Labeling (NEL), Coreference Resolution (COREF), Relation Classification (REL), Question Type Classification (QUES), Supporting Fact Identification (SUP) - 각 layer마다 probing 성능을 측정 (F1 score) |
| 사용 이유 | 각 레이어가 다른 언어 처리 기능에 특화되어 있는지 분석함으로써, 모델 내부에 기능별 모듈성(modularity)이 존재하는지 확인 |
| 결과 | - 아래와 같이 layer별 능력 편중이 나타남: ① NEL은 초기 레이어 (2 ~ 4층)에서 최고 성능 ② COREF, REL은 중간 레이어 (6 ~ 10층)에서 피크 ③ SUP는 후반 레이어 (10~12층)에서 성능 최고 ④ 마지막 레이어는 정답 추출에 특화, 일반 언어 능력은 감소 → 따라서 BERT는 레이어별로 다르게 역할 분담하며 문제를 해결함 |
❓ (3) 파인튜닝이 내부 표현에 어떤 영향을 주는가?
| 사용한 방법 | - 같은 probing task를 fine-tuned BERT와 pre-trained BERT에 모두 적용하여 성능 변화 비교 - 특히 HotpotQA 모델 (BERT-large)과 SQuAD 모델 (BERT-base)의 fine-tuning 전후 결과 비교 |
| 사용 이유 | fine-tuning이 기존 pre-trained 언어 정보를 어떻게 변화시키며, 어떤 task-specific 표현을 새롭게 학습하는지 확인하기 위해 |
| 결과 | - 일반 언어 능력 (예: NER, Coref 등)은 이미 pre-trained 모델에서 충분히 학습되어 있음 → fine-tuning은 그 능력을 크게 바꾸지 않음 - 반면 task-specific 능력 (예: Question Type, Supporting Fact)은 fine-tuning 후 성능이 상승 - 단, 일부 task (예: HotpotQA)에서는 fine-tuning 후 오히려 언어 능력 감소 (e.g., COREF) → Fine-tuning은 task에 맞게 정보를 ‘얕게’ 재구성하며, 일부 정보를 희생함으로써 정답 추출을 최적화함 |
❓ (4) 레이어를 분석함으로써 오답 원인을 알 수 있는가?
| 사용한 방법 | - 정답/오답 케이스의 vector 시각화 비교 - Supporting Fact과 question이 어느 레이어에서 매칭되었는지 관찰 - confidence 낮은 오답의 경우, representation이 어떻게 다르게 변형되었는지 시각적 분석 |
| 사용 이유 | 특정 질문에 대해 모델이 어디서 실수했는지, Supporting Fact 선택 실패인지, relation 매칭 오류인지를 layer-wise로 파악 가능하게 하려는 목적 |
| 결과 | - 오답의 경우 다음 2가지 유형 확인: ① Wrong match case: Supporting Fact를 잘못 선택하여 잘못된 정답 토큰을 강조함 (early layer 문제) ② Low confidence case: 전 레이어에서 token이 뭉쳐 있어 정보 분리가 이루어지지 않음 (Semantic Clustering만 유지) - → 즉, 어느 layer에서 잘못됐는지를 분석함으로써 디버깅/해석 가능 |
https://aclanthology.org/P19-1356/
구문 분석이라......
| 문제 상황 | - BERT가 다양한 NLP 태스크에서 뛰어난 성능을 보이지만, 그 성능의 이유(내부 구조 이해)는 명확하지 않음 - BERT가 언어 구조(구, 구문, 의미)를 계층적으로 학습하는지 검증 필요 - 특히 attention-only 구조가 전통 문법 구조(트리 등)를 학습할 수 있는지 해석이 부족 |
| 연구 질문 | 1. BERT는 구(phrase) 정보를 학습하는가? 2. 레이어마다 어떤 언어 정보(표면/구문/의미)를 학습하는가? 3. 긴 거리 구문 의존성(SVA 등)을 처리할 수 있는가? 4. BERT 표현은 전통 문법처럼 조합적 구조를 가지는가? |
| 방법론 요약 | ① 구문 표현 분석 (Span Embedding) ② Probing Task로 계층 분석 (표면/구문/의미) ③ Subject-Verb Agreement 실험 (긴 거리 의존성) ④ Tensor Product Decomposition Network (TPDN)로 조합 구조 해석 |
| 실험 설정 | - 모델: BERT-base-uncased (12-layer, 110M) - 활성 추출: [CLS] 토큰 또는 특정 토큰의 hidden state - 레이어별 분석: 1~12층에서 표현 비교 |
| 사용 데이터 | - CoNLL 2000 (구문 chunking) - SentEval probing task (10개) - Linzen et al. (2016) SVA 데이터 - SNLI (TPDN 훈련용 premise sentence) |
| 학습 방법 | - 대부분 probing classifier는 고정된 BERT 표현 위에서 별도 linear layer만 학습 - TPDN은 BERT 임베딩을 target으로 삼아 MSE loss 기반으로 학습 |
| 주요 결과 | ✅ Layer 1~3: 구 단위 표현(예: VP, NP)이 잘 분리됨 (높은 NMI) ✅ Layer 4~7: 구문 정보(TreeDepth, TopConst 등) 예측에 가장 유리 ✅ Layer 8~12: 의미 정보(Tense, SOMO 등) 학습 강함 ✅ Layer 8: 긴 거리 의존성(SVA에서 attractor 많을 때도 정확도 높음) ✅ TPDN 실험: BERT는 Tree role scheme에 가장 잘 근사됨 → 암묵적으로 트리 구조 형성 |
| 기여 (Contributions) | - BERT의 레이어별 언어 정보 계층 구조(Hierarchy) 규명 - 긴 거리 의존성 실험을 레이어별로 정밀 측정 (Goldberg 후속 연구) - 조합성(compositionality)을 수학적 구조(TPDN)를 통해 해석한 최초 연구 중 하나 - 표면 → 구문 → 의미로 이어지는 표현의 진화 과정 시각화 및 수치화 |
| 한계 (Limitations) | - 영어 단일 언어 실험 → 언어 일반성 부족 (어순 유연한 언어 등 필요) - 문장 수준 분석에 집중 → discourse-level 구조나 상위 언어 단위 분석은 없음 - probing task는 제한적 → 실제 downstream task 해석까지는 연결 부족 |
| 활용 방안 | - 특정 언어 정보가 필요한 downstream task 설계 시, 해당 정보가 강한 레이어만 사용 가능 예) 구문 분석은 Layer 4~6 / 의미 이해는 Layer 8 이상 - BERT 기반 모델에 구조적 inductive bias를 넣지 않고도 구조적 정보가 내재됨을 전제로 설계 가능 |
https://arxiv.org/abs/1905.06316
What do you learn from context? Probing for sentence structure in contextualized word representations
Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a
arxiv.org
| 문제 상황 (Problem) | - 최근 BERT, ELMo와 같은 문맥 기반(word-in-context) 임베딩 모델이 다양한 NLP 태스크에서 큰 성능 향상을 보임. - 그러나 이 임베딩들이 어떤 구조적/의미적 정보를 인코딩하는지 구체적으로 알려지지 않음. - 특히, 기존 probing은 주로 토큰 수준(POS 등)에만 집중되어 있었음. |
| 연구 질문 (Research Questions) | ① 문맥 기반 임베딩은 어떤 구조(syntax)와 의미(semantics) 정보를 담고 있는가? ② 이 정보는 로컬인가, 롱레인지인가? ③ 특정 레이어가 어떤 정보를 인코딩하는가? ④ 모델 구조(pretraining objective, depth 등)가 정보 인코딩에 미치는 영향은? |
| 방법론 (Method) | 🔹 Edge Probing: 문장 내 단어 또는 스팬 간 관계를 그래프의 엣지(edge)로 보고, 관계를 분류하는 probing task로 변환하여 정보 분석 🔹 각 task는 (s₁, s₂, label) 형식으로 표현, 모든 task는 multi-label classification으로 통일 🔹 Contextual embedding은 고정 (fine-tuning 없음), 단순한 2-layer MLP로 probing |
| 사용 모델 (Models) | ① CoVe (biLSTM, MT encoder) ② ELMo (biLSTM LM, char-CNN) ③ GPT (Transformer LM, unidirectional) ④ BERT (Transformer, bidirectional, MLM+NSP, base/large) → 모두 pretrained weights 고정, probing만 수행 |
| 학습에 사용된 데이터 (Pretraining) | - CoVe: WMT17 (7M 문장, 뉴스/웹) - ELMo: Billion Word Benchmark (뉴스 도메인, 약 1B tokens) - GPT: Toronto Books Corpus (800M words, 픽션 중심) - BERT: Books + Wikipedia (2.5B words), MLM + NSP |
| Probing에 사용된 태스크 (총 8개) | ✅ 구문(syntax): POS, Constituents, Dependencies ✅ 의미(semantics): NER, SRL, SPR, Coreference (OntoNotes + Winograd), Relation Classification (SemEval) → 모두 span-based labeling으로 통일된 평가 수행 |
| Probing 학습법 (Probing Training) | - Contextual vector → projection → self-attentive span pooling → 2-layer MLP → sigmoid - Binary Cross Entropy로 label 분류 - Optimizer: Adam (lr=1e-4, batch size=32, gradient clip 5.0) - Early stopping 및 lr decay 적용 |
| 실험 결과 (Results) | 🔹 ELMo, BERT는 구문 태스크(Constituent, Dependency 등)에서 높은 성능 향상 🔹 의미 기반 태스크(SPR, Coref)는 향상 폭 작거나 불안정 🔹 BERT-large가 전체적으로 최고 성능 (84.4 → 87.3 Macro F1) 🔹 대부분의 정보는 로컬(context ±2)에서도 상당 부분 회복 가능 🔹 일부 태스크(Winograd, SRL-noncore 등)는 long-range 정보 필요 |
| 기여 (Contributions) | ✅ 기존 토큰 수준 probing을 넘어, 문장 내 구조적 관계를 평가하는 새로운 “Edge Probing” 방법론 제안 ✅ 다양한 모델(BERT, GPT, ELMo, CoVe)을 비교 분석 ✅ 각 태스크에 대한 구문/의미 정보 인코딩 수준을 계량적으로 측정 ✅ 로컬/롱레인지 컨텍스트 분석, 레이어별 정보 인코딩 분석 포함 |
| 한계 (Limitations) | ⚠️ 실제 downstream 태스크 성능과 직접적 연결은 아님 (fine-tuning X) ⚠️ span은 gold span 제공 → 실제 추출 문제는 고려하지 않음 ⚠️ probing 모델이 너무 단순하여 구조적 결합 효과는 제한적일 수 있음 |
| 활용 가능성 | - Transformer 기반 언어모델이 구문 정보를 더 잘 인코딩함을 확인했으며, long-range dependency가 필요한 태스크에서 모델 선택 기준으로 활용 가능 - 향후 의미 태스크에 대한 fine-tuning 또는 external knowledge 연계 방법 개발에 기초 제공 |
https://arxiv.org/abs/2310.14993
Understanding the Inner Workings of Language Models Through Representation Dissimilarity
As language models are applied to an increasing number of real-world applications, understanding their inner workings has become an important issue in model trust, interpretability, and transparency. In this work we show that representation dissimilarity m
arxiv.org
| 문제 상황 | - 언어 모델은 내부 표현(hidden representation)을 학습하지만, 그 형태와 기능을 해석하기 어렵다 - 성능만으로는 모델이 어떻게 일반화 또는 실패하는지 설명 불가능 - 내부 표현이 얼마나 다른지, 어떤 레이어에서 다른지, 왜 다른지 등은 알려지지 않음 |
| 제안 방법 | Representation Dissimilarity 분석법 2가지를 언어 모델에 적용: ① Model Stitching: f 모델의 앞부분과 g 모델의 뒷부분을 연결하여 task 수행 성능 비교 ② CKA (Centered Kernel Alignment): 같은 입력에 대해 두 모델 레이어의 표현 구조 유사도 측정 |
| 실험 내용 | (1) GeLU vs SoLU 모델 비교 - 동일 구조의 Transformer에서 GeLU/SoLU 활성화 차이가 표현에 미치는 영향 분석 (2) BERT 일반화 분석 (MNLI vs HANS) - MNLI에 fine-tuning된 100개의 BERT 모델을 일반화/비일반화 그룹으로 나누고 hidden feature 비교 (3) Pythia 모델군 Scaling 분석 - Pythia-70M~6.9B 간 표현 유사도 변화 추적 (intra/inter model CKA) |
| 결과 요약 | 🔹 GeLU vs SoLU: - SoLU → GeLU 연결은 성능 저하 큼 → SoLU 표현은 정보 손실 존재 - GeLU는 더 풍부한 표현을 가짐 🔹 BERT 일반화 차이: - 일반화된 모델과 그렇지 못한 모델은 후반 레이어 표현이 크게 다름 - In-distribution 데이터만으로도 차이를 탐지 가능 (MNLI → HANS-LO 일반화 실패 분석) 🔹 Pythia Scaling 분석: - 초기 레이어는 모델 크기와 상관없이 높은 유사도 - 중간~후반부는 Block structure 형성 - 특이하게 Pythia-2.8B는 다른 모델들과 표현 구조가 다름 (작은 head dimension 영향 추정) |
| 사용 데이터 | - Pile (GeLU/SoLU 및 Pythia 실험) - MNLI / HANS-LO (BERT 일반화 실험) - 전 모델은 학습된 상태에서 사용 (Stitching 시 φ만 학습) |
| 학습 설정 | - Stitching layer (φ): affine + LayerNorm, only φ 학습 - Loss: cross-entropy - Optimizer: SGD + Nesterov momentum (lr=1.0) - Steps: 2000 (warmup: 200) CKA 계산: - HSIC 기반 unbiased CKA - token-level representation 사용 - batch size = 1~2, 1024 tokens - 평균 1000개 batch로 CKA 추정 |
| 기여 | - NLP 분야에 representation dissimilarity 분석 도입 - GeLU와 SoLU 표현력 차이를 실험적으로 검증 - OOD 일반화 실패 원인을 layer-level에서 식별 가능함을 보임 - Scaling 모델 구조 분석을 통해 표현의 구조적 변화 양상을 체계적으로 제시 |
| 한계 | - 실험 모델은 최대 6.9B 수준의 relatively small model - 대형 모델(GPT-3, Llama 등)에 대한 확장 가능성은 검증되지 않음 - Stitching/CKA로 자동 클러스터링까지 수행하진 않음 (mode connectivity 연구와 대비됨) |
https://arxiv.org/abs/2302.00294
The geometry of hidden representations of large transformer models
Large transformers are powerful architectures used for self-supervised data analysis across various data types, including protein sequences, images, and text. In these models, the semantic structure of the dataset emerges from a sequence of transformations
arxiv.org
| 문제 상황 | - Self-supervised 방식으로 학습된 대형 Transformer들은 다양한 도메인에서 뛰어난 성능을 보임 - 하지만 내부 hidden layer의 표현들이 어떻게 기하학적으로 변화하며, 어떤 레이어가 의미 있는 표현을 담는지는 불분명함 - 특히 마지막 레이어는 입력 재구성에 집중되어 있어 의미 정보가 희석될 가능성이 있음 |
| 연구 질문 | - Transformer 내부 표현은 어떤 기하학적 구조(구조적 특징)를 가지는가? - 가장 의미 있는 표현(semantic-rich representation)은 어느 레이어에 존재하는가? - 이를 비지도 방식으로 자동 식별할 수 있는가? |
| 방법론 | 3가지 핵심 지표로 layer 표현을 정량적으로 분석함: ① Intrinsic Dimension (ID) - 표현이 실질적으로 퍼져 있는 차원 수 - TwoNN 알고리즘으로 추정 ② Neighborhood Overlap (χ) - 두 레이어 간 표현의 변화량 측정 - 같은 데이터에서 k-NN이 얼마나 유지되는지 계산 ③ Semantic Overlap (χ_gt) - 해당 레이어의 표현이 정답 label 기준으로 얼마나 잘 군집되는지 측정 - k-NN 중 같은 class의 비율 계산 |
| 실험 대상 | - 단백질 pLM (ESM-2): 35M, 650M, 3B - 이미지 iGPT: Small(76M), Medium(455M), Large(1.4B) - 데이터셋: ProteinNet, SCOPe, ImageNet |
| 실험 결과 | 🔍 Transformer 표현의 3단계 구조 발견: ① 초기 확장 단계: 표현력이 증가 → ID 상승, 이웃 변화 큼 (χ↓) ② 중간 압축 단계: 의미 정보 응축 → ID 낮아짐, 이웃 안정 (χ↑), χ_gt 최고점 ③ 후기 디코딩 단계: 입력 복원 위해 다시 확장 → ID 증가, semantic 정보 희석 (χ_gt↓) ✅ 의미 정보(semantic-rich)는 ID가 낮은 중간 레이어에 존재 → remote homology, class label 정보는 중간에서 가장 잘 구분됨 |
| 기여 | - Transformer 표현의 기하학적 진화 패턴을 체계화 - 비지도 방식으로 의미 있는 레이어 자동 식별 가능 - 다양한 도메인(단백질, 이미지, 언어)에 공통된 구조적 특성 존재함을 규명 - 최종 레이어 대신 중간 레이어를 활용하면 downstream task 성능 향상 |
| 한계 | - NLP task (LLMs)에서는 표현 진화 양상이 더 복잡하거나 불안정할 수 있음 - average pooling 등 표현 추출 방식이 ID값에 정량적 영향을 줄 수 있음 (하지만 전반적 추세는 유지됨) - 학습 목적(Masked LM vs. Next token prediction)과 데이터 형태의 차이가 결과에 영향을 미칠 수 있음 |
| 직관적 해석 | - ID: 표현의 다양성과 복잡도 → ID 높음 = 다양한 feature 표현, ID 낮음 = 의미 응축 - χ: 레이어 간 변화율 → 값이 낮으면 표현 급변, 높으면 안정 - χ_gt: 표현의 의미 정렬력 → 높을수록 잘 군집됨 (가장 좋은 표현 공간) → 중간 레이어 (ID 낮고 χ_gt 높은 지점)이 의미 정보를 가장 잘 표현 |
| 실험에 적용 시 유의점 | - fine-tuning 없이도 ID minimum 구간에서 표현 추출 시 downstream 성능 향상 가능 예: ProtT5에서 plateau layer 사용 시 remote homology 검색 정확도 6%↑ - layer 선택 시 ID curve만으로도 candidate narrowing 가능 |
| 요약 | ✅ χ는 cosine 유사도처럼 표현 간 유사도 변화율을 측정 ✅ χ_gt는 해당 표현이 얼마나 잘 label 기반으로 군집되는지를 나타냄 ❗️ ID는 표현이 실제로 몇 차원적 manifold 위에 펼쳐져 있는지를 측정하는 지표 → 고차원 공간 속 "의미 있는 저차원 구조"를 추출함 |
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| Language Model (LM) Pruning 논문 1 (4) | 2025.08.08 |
|---|---|
| Layer by Layer: Uncovering Hidden Representations in Language Models (8) | 2025.08.07 |
| SHEARED LLAMA: ACCELERATING LANGUAGEMODEL PRE-TRAINING VIA STRUCTURED PRUNING (9) | 2025.08.04 |
| Embedding(Retriever) 모델 논문2 (5) | 2025.08.04 |
| Embedding(Retriever) 모델 논문 1 (0) | 2025.07.27 |