인공지능/논문 리뷰 or 진행

Layer by Layer: Uncovering Hidden Representations in Language Models

이게될까 2025. 8. 7. 00:07
728x90
728x90

https://arxiv.org/abs/2502.02013

 

Layer by Layer: Uncovering Hidden Representations in Language Models

From extracting features to generating text, the outputs of large language models (LLMs) typically rely on the final layers, following the conventional wisdom that earlier layers capture only low-level cues. However, our analysis shows that intermediate la

arxiv.org

Laguage Model의 Layer 마다 Representation 능력을 보여주는 논문이다.

 

중간 레이어가 높은 점수를 가지는 것을 볼 수 있다. 

 

여기선 Representation 성능을 측정하기 위해 3가지 지표를 사용한다.

  • Information-theoretic
    • 데이터가 실제로 놓여있는 최소 차원 추정을 통해 중간 레이어가 얼마나 유용한 정보를 유지하고, noise를 버리는지 확인 
  • Geometric
    • 정보가 특정 차원에 압축되어있는지, 균일하게 퍼져이쓴지 확인하여 고차원 공간에서 어떤 구조를 이루는지 확인 
  • Task-based / Invariance 
    • InfoNCE 
    • LiDAR 
    • NESum, Self-Cluster 

 

BERT는 안정된 모습을 보여준다. 

대부분의 모델에서 최종 layer보다 중간 layer에서 높은 성능을 보여주는 것을 볼 수 있다. 

 

문제 상황 LLM 응용에서는 “최종 레이어가 가장 좋은 표현”이라는 관행이 널리 퍼져 있다.
저자는 이에 의문을 제기하며, “과연 마지막 레이어가 항상 최적일까?”라는 질문을 던진다.
방법론 정보 (압축), 기하 (곡률·고유값), 불변성 (InfoNCE / LiDAR / DiME) 세 관점을 Rényi 행렬-엔트로피 하나의 수식으로 통합하고, 모든 레이어에 대해 해당 지표를 계산해 “지표가 최소인 레이어 = 정보-잡음 균형점”으로 정의.
실험 설정 모델: Pythia-410 M, Llama 3-8 B(디코더), Mamba-370 M(SSM), BERT-base(인코더), LLM2Vec-8 B 등 5계열.
벤치마크: 32개의 Massive Text Embedding Benchmark(MTEB) 태스크로 분류·클러스터링·재순위 등을 측정.
사용 데이터 표현·지표 계산용: Wikitext-103 (100 M tokens)에서 길이 ≥ 30 토큰 문장만 사용.
다운스트림: MTEB 32 태스크 전부(영어 클러스터링·분류·STS·재순위)
결론 중간 레이어가 정보 보존 ↔ 노이즈 제거의 최적 trade-off 지점임을 이론·실험으로 확인.
따라서 “마지막 레이어만 쓰는” 관행 대신 지표 기반 레이어 선택이 더 나은 임베딩을 제공한다.
기여 1) 통합 프레임워크로 서로 다른 표현 품질 지표들을 하나의 엔트로피 수식으로 귀일.
2) 다종 아키텍처·다규모 모델에서 중간-최적 현상을 정량 실증.
3) 학습 없이(forward-pass만) 레이어를 골라 성능을 즉시 끌어올리는 실용 절차 제안.
한계 - 제안 지표를 loss에 직접 넣어 fine-tuning하지는 않아, ‘metric-guided 학습’은 미개척 상태 .
- 모든 레이어의 hidden state를 저장하므로 메모리/연산 비용 증가.
- 검증은 주로 MTEB·Wikitext 기반이며, 실제 검색·코드 QA 등 실무 시스템에서의 평가는 남은 과제.

 

더보기

 

문제 의식 “최종 레이어가 항상 최고의 표현인가?”라는 통념을 검증.
LLM 내부 중간 레이어(intermediate layer)가 실제로 더 풍부한 표현을 갖는지 체계적으로 분석
제안 방법 1) 정보 이론(압축·정보 보존)
2) 기하(곡률 · 고유값 스펙트럼)
3) 불변성(InfoNCE, LiDAR, DiME) 세 관점을 행렬 기반 엔트로피로 통합한 평가 프레임워크 제시
실험 설정 • 모델: Pythia-410 M, Llama 3-8 B, Mamba-370 M, BERT-base, LLM2Vec 등
• 벤치마크: MTEB 32개 임베딩 과제(분류·클러스터링·재순위)
주요 결과 • 모든 아키텍처에서 중간 레이어가 최종 레이어보다 2 ~ 16 % ↑
• 데코더(Autoregressive) 모델은 “압축 V자 패턴”—중간에서 정보량 급감 후 회복
• Encoder·SSM은 완만한 변동
정성 분석 중간 레이어가 정보 보존↔노이즈 제거 균형을 가장 잘 달성
→ 높은 엔트로피·곡률·불변성 지표가 성능과 강한 상관
확장 실험 • Vision Transformer에서도 autoregressive 학습이면 동일한 중간-병목 현상 관찰
• CoT finetuning이 중간 레이어 엔트로피를 높여 다중 단계 추론에 유리
기여 ① 중간 레이어의 유용성 실증
② 통합 지표 프레임워크
③ 언어·비전·SSM 전반에 걸친 일반성
④ 실무에서 “최종 레이어 대신 최적 레이어 선택” 가이드
한계 & 향후 과제 • 왜·언제 압축 V자 패턴이 생기는지 이론적 정밀 분석 필요
• 미세조정으로 압축 정도를 제어하는 기법 연구 제안

단계별 상세 설명

  1. 문제 제기
    LLM 응용은 보통 마지막 레이어(hidden state)만 활용한다. 그러나 저자들은 “최종 레이어가 프리트레이닝 목표에 과특화(over-specialization)될 수 있다”고 가정한다.
  2. 통합 평가 프레임워크
    • 행렬 기반 엔트로피로 토큰/프롬프트/데이터셋 수준의 정보량을 정량화.
    • 고유값 분포가 집중되면 압축, 분산되면 정보 보존으로 해석.
    • 곡률(curvature)·InfoNCE·LiDAR·DiME 등 기존 지표가 모두 같은 수학적 기반임을 증명해 이론적 일관성을 확보.
  3. 대규모 실험
    • 다양한 모델·규모·학습 방식(autoreg vs. masked)을 레이어별로 임베딩 후 MTEB 점수 측정.
    • 중간 레이어(전체 깊이의 40 ~ 60 %)에서 성능 피크 관찰 → 테이블 및 Figure 1로 시각화 .
  4. 분석 결과
    • 정보 – 기하 – 불변성 지표가 높은 레이어가 곧 downstream 성능도 높다 → 무감독으로 ‘좋은 레이어’ 예측 가능.
    • Autoregressive 학습은 mid-layer compression valley를 만들고, Vision-AIM 모델에서도 같은 현상 확인 .
  5. 응용·의의
    • 파인튜닝 없이 “레이어 선택”만으로 임베딩 품질 향상 → 계산 비용↓, 성능↑.
    • 모델 해석·프로빙·지식 편향 분석 등 연구에 중간 레이어 활용 필요성 강조.

실험 적용 Tip

  • 실무에서 바로 쓰려면?
    1. 전체 레이어 임베딩을 뽑아 DiME 또는 InfoNCE 스코어가 가장 낮은(=품질 높은) 레이어를 선택한다.
    2. 해당 레이어 표현으로 downstream 태스크를 학습·추론하면 최종 레이어 대비 일관된 성능 개선을 기대할 수 있다.
  • 다중 모달 모델에도 동일 원칙 적용 가능하지만, 비-autoregressive 학습일 경우 패턴이 달라질 수 있으므로 곡률·엔트로피 추이를 반드시 확인한다.

요약
이 연구는 “LLM의 심층 내부”를 정보 이론적 관점으로 해부해, 중간 레이어가 최종 레이어보다 더 강력한 특성 표현을 제공한다는 사실을 대규모 실험으로 입증했다. 제시된 통합 지표 체계는 모델 해석과 효율적 활용(레이어 선택·모델 압축·파인튜닝 전략)에 실용적인 통찰을 제공한다.

 

 


1. InfoNCE 스코어

InfoNCE는 원래 Noise-Contrastive Estimation 기반의 자기지도 학습 손실로, 정답 쌍(같은 문장·이미지 등의 두 표현)은 가깝게, 오답 쌍은 멀리 배치하도록 학습시키는 목적함수입니다.

  • 두 augmentation z_i, z_i^+ 를 “양성(positive)”으로, 다른 샘플 z_j 를 “음성(negative)”으로 두고

을 평균한 값을 손실로 사용합니다. 여기서 sim은 보통 cosine similarity, τ는 temperature입니다.

  • 평가 지표로 쓸 때는 손실 값을 그대로 “스코어”로 취급하며, 낮을수록 두 augmentation 간 거리가 더 가까워 “표현이 변형에 강인하다(invariant)”는 뜻이 됩니다.
  • 논문에서는 InfoNCE가 (log N − InfoNCE) ≤ I(X; Z) ≤ H(Z)라는 MI(상호정보량) 하한식과 연결되어, 낮은 InfoNCE → 높은 I(X; Z) → 풍부한 정보 보존을 이론적으로 뒷받침합니다.

2. LiDAR 지표

LiDAR(Linear Discriminant Analysis of Representations, Thilak et al., 2024)는 이름 그대로 Fisher’s LDA의 “클래스 간 분산 / 클래스 내 분산” 비율을 활용합니다.

  • 논문 맥락에선 각 prompt를 하나의 “클래스”로 보고, 그 prompt에서 파생된 여러 augmentation 벡터가 얼마나 조밀한 클러스터를 이루는지를 측정합니다.
  • 식으로는

로 나타낼 수 있고, 작을수록 augmentation 끼리 뭉치고 클래스 간에는 잘 분리된다는 뜻입니다.

  • LDA 기반이라 계산이 가볍고, 논문에서는 각 레이어의 LiDAR가 downstream 성능과 가장 강하게 상관한다는 경험적 결과를 보고합니다.

3. DiME 지표

DiME(Difference of Matrix-based Entropies, Skean et al., 2023)은 행렬 기반 Rényi 엔트로피를 이용해 두 샘플이 서로 “짝이 맞는지”를 점수화합니다.

  1. 실제 정답 매칭 z_i, z_i^+ 쌍으로부터 얻은 공분산 행렬의 엔트로피 S_pos,
  2. 임의로 뒤섞어 만든 가짜 매칭 공분산의 엔트로피 S_neg 를 구한 뒤

DiME=S_pos − S_neg

를 계산합니다.

  • 값이 낮을수록 “진짜 쌍과 가짜 쌍의 차이”가 크게 나타나므로, 올바른 augmentation 쌍이 더 독특하게 정렬(aligned)돼 있다는 의미가 됩니다.
  • 행렬-엔트로피 기반이라 고차원 분포 특성을 반영하며, 논문에서는 DiME가 레이어 선택 기준으로 3 % 가량의 MTEB 성능 개선을 가져온다고 보고합니다.

4. 세 지표를 함께 보는 이유

  • 공통점: 세 지표 모두 augmentation invariance (같은 의미를 보존하는 변형에 대해 표현이 얼마나 일관적인가)을 측정해, Representation Quality ↔ Downstream 성능을 가늠하는 간접 지표로 사용됩니다.
  • 차이점
    • InfoNCE는 쌍별 거리 기반 확률적 손실이라 학습·평가에 모두 쓰이며, MI와 직접 연결됩니다.
    • LiDAR는 선형 판별(분산 비율) 관점으로 “클러스터의 콤팩트함”을 강조합니다.
    • DiME는 엔트로피 차이로 비선형·고차원 구조까지 포착합니다.

실험적으로는 “중간 레이어에서 세 지표(특히 LiDAR·DiME)가 최솟값을 찍는 지점이 곧 MTEB 최고점”이라는 패턴이 여러 모델에서 재현되어, 레이어 선택만으로 파인튜닝 없이 임베딩 성능을 끌어올릴 수 있다는 것이 논문의 핵심 메시지입니다.

 


어떻게 활용했는가?

  1. 레이어-별 진단
    • 각 모델(예 : Pythia-410 M, Llama 3-8 B 등)의 모든 레이어에 대해 세 지표를 한 번씩 계산해 “어디서 값이 가장 낮아지는가?”를 확인함.
    • 낮은 값 → augmentation-invariant 표현 → downstream 점수와 높은 음의 상관이 있다는 사실을 입증했습니다.
  2. 학습 없는(unsupervised) 레이어 선택
    • 지표가 최소가 되는 레이어를 고른 뒤, 그 레이어의 hidden state만 downstream 임베딩으로 사용.
    • 별도 파인튜닝 없이도 MTEB 평균 성능이 최종 레이어 대비 최대 ≈ 3 %p 올라갔습니다.
  3. 훈련 과정 관찰용으로도 사용
    • Pythia 사전학습 단계(1 step → 143 k step)마다 지표를 찍어 “중간층 압축-해제 V자 패턴”이 언제 생기는지 시계열로 추적했지만, 지표 자체가 loss로 들어간 적은 없습니다.

정리

  • 지표 용도
    1. 이미 학습된 모델의 내부 표현 품질을 진단
    2. 라벨 없이(best layer) 자동 선택해 “학습 0 회, 추론만”으로 성능 향상
  • 지표 비-용도
    • 모델을 다시 파인튜닝하거나, 새 손실 함수로 학습을 유도하는 데는 쓰지 않음
    • 논문에서도 “향후 과제로 metric-guided fine-tuning을 탐색할 가치가 있다”고만 언급

즉, 이번 연구는 학습 방식 변경이 아니라 “학습 후 활용법”을 제시한 것으로 보는 것이 정확합니다.

 

관련 연구 흐름  — 중간 레이어 표현 분석의 계보와 확장

1. 초기 “레이어 내부 들여다보기” 기법

  • Linear classifier probes로 은닉층마다 별도의 선형 분류기를 붙여 정보 유무를 점검한 Alain & Bengio (2017)와, 두 네트워크 / 두 시점의 표현을 정합(CCA) 관점에서 비교한 SVCCA(Raghu et al. 2017)가 대표적입니다. 이 시기는 주로 시각 모델이나 비교적 얕은 네트워크에 집중했습니다.

2. 대형 LLM으로의 확장 — 레이어별 정보 분포

  • BERT 계열에서는 POS·Semantic Role 등 언어학적 특징이 주로 중간층에 집중된다는 사실이 확인됐고,
  • Jin (2024), Gurnee & Tegmark (2023), Fan (2024) 등은 “최종 대신 중간 레이어 표현이 더 견고하다”는 결과로 이 통념을 뒤흔들었습니다.
  • 동시에 Attention Sink 현상, 특정 토큰(주로 첫 토큰)에 주의가 과도하게 몰리는 편향이 얕은/깊은 층에서 두드러지고, 중간 디코더 층은 비교적 분산된 주의를 보인다는 관찰도 이어졌습니다.

3. 압축(Compression) ↔ 일반화(Generalization)의 연결 고리

  • self-supervised 인코더에서 일부 레이어를 과감히 절단(drop) 하면 오히려 정확도가 올라가는 “Guillotine Regularization”을 Bordes et al. (2023)이 보고했고,
  • Park et al. (2024a/b)는 LLM 임베딩이 저차원 다양체에 놓여 있음을 보였습니다. 이러한 결과들은 “중간층 정보-잡음 균형(bottleneck)이 일반화에 중요하다”는 본 논문의 실증과 맞닿아 있습니다.

4. 학습 목표가 표현 구조에 미치는 영향

  • Saponati et al. (2025)다음 토큰 예측 vs. 마스킹 등 pre-text task 차이가 내부 표현 기하와 압축 정도를 어떻게 달리 만드는지 이론적으로 분석해, 본 논문의 실증적 발견을 뒷받침합니다.

5. 표현 품질을 재는 척도들의 진화

  • 정보 이론적(Information Bottleneck, Mutual Information, Intrinsic Dimensionality), 지오메트릭(특잇값 분포, 효과 랭크, 곡률), 불변성 기반(InfoNCE, LiDAR, NESum 등) 세 축으로 지표가 발전해 왔습니다.
  • 본 논문은 InfoNCE·LiDAR·DiME를 포함한 다양한 척도가 사실상 행렬 기반 엔트로피라는 한 우산 아래 연결됨을 증명해 단일 이론 틀을 제공합니다.

6. ‘Layer by Layer’ 논문의 위치

  • 위 연구들을 통합해 (i) 중간 레이어 우수성의 보편성을 대규모 실험으로 검증하고,
  • (ii) 압축·기하·불변성 지표를 하나의 엔트로피 틀로 묶어 진단–레이어 선택–모델 설계까지 연결한 점이 핵심 기여입니다.

요약: 초기 probing·유사도 분석 → LLM 중간층 정보 집중 발견 → 압축과 일반화의 연계 → 학습 목표 영향 → 통합 지표 개발로 이어지는 흐름 속에서, 본 연구는 “중간 레이어 활용”을 실증·이론 양면에서 공고히 하며 후속 연구(중간층 finetuning·모델 압축 설계 등)의 기반을 마련합니다.

 

방법론을 한 줄씩 뜯어보기 — “Layer by Layer” 가 내부 표현을 해부한 절차

1. 세 관점 통합 → 단일 이론 틀
저자들은 표현 품질을 측정하는 기존 지표(정보량·기하·불변성)가 모두 “행렬 기반 Rényi 엔트로피”라는 동일 수식으로 귀속됨을 증명합니다.
레이어 Z의 Gram matrix K = Z Zᵀ의 고유값 λ₁…λᵣ에 대해 (α = 1 일 때 Shannon 엔트로피에 수렴)

을 정의하고, (i) 압축 = 고유값 편중, (ii) 기하 = 곡률·유효 랭크, (iii) 불변성 = InfoNCE / LiDAR / DiME 스코어가 모두 Sα의 단순 변형임을 보여줍니다.
덕분에 “중간 레이어는 왜 좋을까?”를 엔트로피가 최소가 되는 ‘정보·잡음 균형점’이라는 한 문장으로 설명할 수 있게 됐습니다.


2. 평가 파이프라인 (모델 ↔ 데이터 ↔ 지표)

단계  세부 절차
데이터 수집 표현 계산용 Wikitext-103(100 M tokens)을 사용하고, 30 토큰 미만 문장은 제거해 긴 컨텍스트 유지.
증강 생성 NLPAug로 SplitAug·RandomCharAug·Keyboard aug 세 가지를 적용해 prompt 두 벌을 만듦
— InfoNCE·LiDAR·DiME는 이 두 증강 쌍을 사용.
모델군 - Pythia-410 M, Llama-3-8 B (디코더)
- Mamba-370 M (SSM)
- BERT-base (인코더)
- LLM2Vec 변형 등 총 5 계열.
은닉 상태 수집 각 모델에 Wikitext 프롬프트를 넣고 모든 레이어의 hidden state를 저장(계산은 1-GPU forward pass).
지표 계산 레이어별로 Sα(Z)·Curvature·Prompt / Dataset Entropy, 그리고 InfoNCE·LiDAR·DiME를 산출
— 한 레이어당 ~1 s.
다운스트림 검증 레이어별 임베딩을 MTEB 32 과제(분류·클러스터링·재순위·STS)로 평가해 지표와 성능 상관을 측정.

3. 레이어 선택 알고리즘 (학습 ×, 추론 전용)

  1. 지표 최솟값 찾기 — 예컨대 DiME가 가장 낮은 레이어 ℓ★ 추출.
  2. ℓ★ 임베딩으로 MTEB를 다시 돌려 “마지막 레이어 → 중간 레이어” 교체 효과를 확인.
    Pythia-410 M은 평균 +3 % p, LLM2Vec-8 B는 +0.6 % p 향상.
  3. 학습 파라미터는 단 한 줄도 업데이트하지 않음 — 지표는 전적으로 post-hoc 진단·선택용입니다.

4. 추가 분석 — 패턴·원인 파헤치기

  • 압축 V-패턴: Autoregressive 모델(Pythia, Llama)은 중간에서 엔트로피가 급락했다가 뒤에 다시 상승, 반면 Masked MLM (BERT)·SSM(Mamba)은 완만한 곡선.
  • 학습 진행별 변화: 사전학습 step 1 → 143 k까지 지표를 추적해 mid-layer bottleneck이 학습 초기에 형성됨을 관찰.
  • 스케일 효과: Pythia-14 M ~ 1 B 모든 크기에서 ‘중간 최적’ 현상이 유지돼 모델 크기와 무관한 보편성 입증.
  • CoT 파인튜닝: Llama-3를 Chain-of-Thought로 미세조정하면 중간층 엔트로피가 다시 증가해 다중 추론에 유리한 정보가 보존됨.
  • 비전 모델 일반화: 동일 평가를 ViT-L로 실험해 자기회귀 이미지 변환기도 같은 중간 bottleneck을 보인다는 결과 → 목표함수 영향이 핵심.

5. 왜 이 방식을 쓰나? — 실무 적용 포인트

  1. “비용 0 파인튜닝”: 레이어만 교체해도 최대 16 %의 과제 성능 향상, 계산·메모리는 동일.
  2. 모델 해석 디버깅: InfoNCE·LiDAR 곡선으로 표현 붕괴 시점(e.g., attention sink)이나 잡음 폭발 구간을 즉시 파악.
  3. 모델 설계: 중간 bottleneck을 염두에 두고 더 깊은 네트워크 대신 ‘중간층 와이드 + 얕은 헤드’ 방식처럼 효율적 아키텍처를 고안할 수 있음.

핵심은 “엔트로피 최소 지점 = 정보·노이즈 최적 trade-off”라는 하나의 지표로 복잡한 표현 현상을 설명하고, 이를 레이어 선택 전략으로 곧장 연결했다는 점입니다. 학습을 다시 할 필요 없이, 지표만 재면 바로 쓸 수 있는 실용적 방법론이라는 것이 이 논문의 가장 큰 매력입니다.

 

MTEB 평가가 ‘끝’은 아니었습니다. 저자들은 “중간-최적 레이어 선택”이 실제로 어디서, 왜, 얼마나 유효한지를 다각도로 검증하려고 그 뒤에 네 가지 추가 실험 축을 더 진행했습니다.


1. 레이어-성능 상관 분석

선택된 한두 레이어의 점수만 보는 대신, 모든 레이어 × 여섯 지표 곡선을 그려서 MTEB 성능과 통계적으로 연결했습니다.

  • Pythia-410 M의 경우 Spearman ρ·Kendall τ·distance-corr 모두 |ρ|≈0.8 수준으로 지표값이 낮을수록 성능↑임을 확인했습니다. InfoNCE만 방향이 반대(값↑→성능↑)지만 역시 강한 연관성을 가집니다.
  • 같은 분석을 BERT에도 반복해 모델 계열을 넘어 상관관계가 유지됨을 보였습니다.

2. 학습 단계별 동적 추적

Checkpoint(1 step→143 k step)를 저장해 지표가 언제 “V자 압축 패턴”을 형성하는지를 시계열로 관찰했습니다.

  • 가장 큰 변화는 항상 중간층에서 일어났고, 초반층은 몇 천 step 만에 안정화됐습니다.
    이는 ‘detokenization layer는 초기에 자리 잡고, 정보 추상화는 중간층이 담당한다’는 가설을 뒷받침합니다.

3. 입력 교란·다중 도메인·다중 모달 실험

  • 토큰 반복·무작위화·시퀀스 길이를 인위적으로 조절해도, 중간층에서만 지표가 민감하게 흔들린다는 점을 확인했습니다.
  • Vision-domain으로 확장: autoregressive ViT(AIM)은 텍스트 LLM과 동일한 entropy valley + accuracy peak를 보였지만, 비-autoregressive ViT에서는 그런 병목이 사라졌습니다.
    “목표 함수(autoregression) 자체가 병목을 만든다”는 해석을 제시합니다.

4. Fine-tuning이 중간층을 어떻게 바꾸는가?

  • Qwen 2.5를 Chain-of-Thought(CoT) 미세조정하면, 원본 대비 중간층 엔트로피가 다시 상승해 더 많은 문맥을 유지하는 쪽으로 재구성되는 것을 발견했습니다.
    이는 “레이어 선택 + 후속 파인튜닝”이 추가 성능을 얻을 수 있음을 시사합니다.

한계와 후속 연구 아이디어

  1. Metric-guided fine-tuning
    논문은 아직 지표를 손실 함수로 직접 넣어 학습하진 않았습니다. 저자들도 “후속 과제로 가치가 있다”고만 언급했기 때문에,
    • 예시 연구: min-LiDAR 레이어를 헤드로 고정하고 상위층만 LoRA 튜닝 → 압축 유지 + 과특화 방지.
  2. 레이어 퓨전/샘플링
    • 최적 레이어 하나 대신 두세 레이어 concat 또는 attention fusion으로 더 높은 표현력을 얻는지 탐구.
    • 계산비용 ↔ 성능을 trade-off 하는 데 실용적일 수 있음.
  3. 응용-특화 검증
    • retrieval, code-search, multi-lingual QA 같이 MTEB 밖의 실제 시스템에 적용해 latency·정확도 변화를 측정.
    • 여기에 CoT fine-tuned 모델까지 포함하면 “중간층 + reasoning” 시너지를 평가할 수 있음.
  4. 이론 확장
    • 정보 보틀넥의 원인으로 제시된 ‘autoregression이 만든 미래 토큰 압축’ 가설을 수리적으로 모델링하고,
    • masked LM이나 SSM에서도 병목이 얼마나 약화되는지 정량화.

결론

즉, MTEB 점수만 보고 끝낸 작업은 아니고,

  • 중간층이 좋은 이유를 “학습 초기 형성된 정보 압축 패턴” + “autoregressive 목표”로 해석하고,
  • 시간·도메인·미세조정 변화까지 종단적으로 확인했다는 점이 이 논문의 확장 실험입니다.
    남은 과제는 지표를 loss로 사용하거나, 레이어 퓨전·특화 미세조정을 실무에서 어떻게 활용하느냐인데, 이 부분이 앞으로의 연구 기회로 제시되고 있습니다.

 

결과 (Results)

  • 중간 레이어 우수성 실증: 32 개 MTEB 과제 전반에서 최적 레이어가 항상 네트워크 중간(40 – 60 % 깊이) 근처에 위치했고, 최종 레이어 대비 2 % ~ 16 %p까지 성능이 올라갔습니다.
  • 정보 ↔ 잡음 균형: 프롬프트 · 데이터셋 엔트로피, 곡률, InfoNCE·LiDAR·DiME 세 불변성 지표가 모두 “중간에서 저점, 성능 최고점” 형태로 일치했으며, 지표값과 Downstream 점수 간 스피어만 ρ≈0.8 수준의 높은 음의 상관을 보였습니다.
  • 목표 함수 영향: 자동회귀(autoregressive) 학습을 쓰는 언어·비전 모델 모두가 mid-layer bottleneck을 공유한 반면, 비-자동회귀 ViT들은 일관되게 후반부 성능이 상승하는 패턴을 보였습니다. 이는 압축-재확장 현상이 학습 목적 자체에서 기인함을 시사합니다.
  • 미세조정·도메인 일반화: Chain-of-Thought (CoT) 파인튜닝은 중간층 엔트로피를 다시 높여 다중 단계 추론에 이롭고, 극단 입력이나 비전 도메인 실험에서도 중간층이 복원력과 선택적 압축을 담당함이 확인됐습니다.

결론 (Conclusions)
저자들은 행렬 기반 엔트로피란 하나의 수식으로 압축·기하·불변성 지표를 통합하고, 이를 통해 “중간 레이어가 정보 보존과 노이즈 제거 간 최적 trade-off 지점”임을 이론·실험 양면에서 입증했습니다. 따라서 “최종 레이어만 쓰면 된다”는 관행을 재고하고, 레이어 선택 또는 설계 단계에서 중간층을 적극 활용해야 한다는 메시지를 제시합니다.


주요 기여 (Contributions)

  1. 통합 이론 틀: InfoNCE, LiDAR, DiME, 곡률, 엔트로피 등을 하나의 Rényi-엔트로피 관점으로 귀일.
  2. 대규모 다종 실험: 언어(Transformer·SSM)와 비전 모델을 아우르는 최초의 레이어별 대표성 비교·정량화.
  3. 실용 가이드: 학습 파라미터를 변경하지 않고도 지표 기반 레이어 선택만으로 임베딩 품질을 즉시 향상시키는 절차 제안.
  4. 객관적 분석 도구: Extreme-prompt, 학습 단계별 추적, CoT finetuning 등 다양한 설정에서 프롬프트 엔트로피로 모델 내부 변화 해석.

한계 및 향후 과제 (Limitations & Future Work)

  • 지표-기반 학습 부재: DiME / LiDAR 등을 손실 함수로 직접 넣어 metric-guided fine-tuning을 수행하지 않았고, 이를 향후 연구 과제로 남겼습니다.
  • 원인 인과성 미해명: Mid-layer bottleneck의 정확한 형성 메커니즘은 경험적 가설 수준이며, 더 정밀한 이론 모델링이 필요합니다.
  • 편향·공정성 우려: 중간층 특성 활용이 잠재적 편향을 증폭할 수 있어, 윤리적 영향과 완화 방안을 추가 연구해야 함을 명시합니다.
  • 메모리 / 계산 비용: 모든 레이어 히든 상태를 저장해야 하므로, 대규모 모델·장문 입력에서 메모리 부담이 남습니다 (논문 본문에서 정량 평가 X).
  • 벤치마크 외부 검증 부족: MTEB 외의 실제 시스템(예: 검색·코드 QA)에서 얻는 이득·레이턴시 변화는 시험하지 않았습니다.

정리: 이 연구는 “중간 레이어 활용”을 이론·실험·실용 세 박자에서 체계화했지만, 아직 지표를 학습에 통합하거나 산업 응용으로 확장하는 단계는 남아 있습니다.

 

 

 

 

 

728x90