https://aclanthology.org/2022.icon-main.3/
Analysing Syntactic and Semantic Features in Pre-trained Language Models in a Fully Unsupervised Setting
Necva Bölücü, Burcu Can. Proceedings of the 19th International Conference on Natural Language Processing (ICON). 2022.
aclanthology.org
2022년 논문이니까 조금은 지난 논문입니다.

단순한 스팬 내부에서 거리가 가까워야한다 뭐 이런 거였네요 ...
크게 동의하지는 않지만, 그래도 일부분 의미는 있을테니까요
| 문제 상황 | PLM이 학습 과정에서 자연스럽게 익힌 구문·의미 정보를 별도 학습 없이 완전 무감독(제로샷)으로 파싱에 활용할 수 있는지, 그리고 어느 레이어/헤드에 정보가 분포하는지 규명. 동일 모델로 의존·구성·의미(UCCA) 3과제를 비교 분석하는 최초 시도. |
| 방법론(개요) | Kim et al.(2020b)의 차트 기반 제로샷 파싱을 채택: 문장 스팬별 점수를 합산해 트리 점수 s(t)를 정의하고, 가장 낮은 점수의 트리를 선택. sp(토큰쌍 평균거리), sc(스팬 중심과의 평균거리)를 사용. 거리함수는 JSD/HEL. |
| 디코딩 & 과제별 처리 | 구성: 차트 점수로 CYK 디코딩. 의존: 동일 점수틀에 Eisner 디코더 적용. 의미(UCCA): UCCA 그래프 → 구성 트리로 변환(불연속/remote edge 제거) → 제로샷 구성 파싱 → UCCA로 역변환(불연속 복원, remote/implicit 제외). |
| 조합 탐색(레이어·헤드) | (sp/sc)×(JSD/HEL)=4 조합 × (레이어 l) × (헤드 a) → 4×l×a개의 트리 생성, 각 트리의 F1을 산출해 최고 F1만 보고. |
| 실험 셋업(언어·데이터) | 언어: 영/독/불/터키어. 의존: UD v2.3, 구성: PTB(영), SPMRL(독/불), Turkish Treebank, 의미: SemEval-2019 UCCA(영/독/불), Turkish UCCA. 학습 단계 없음(제로샷), 평가에는 테스트셋만 사용. |
| 사용 PLM/설정 | 단일어(영): BERT/XLNet/RoBERTa/GPT-2 (base/large). 단일어(독/불/터): 각 언어 BERT. 다국어: mBERT, XLM-R(base/large). (기존 연구와 동일하게 base=12L·12H·768, large=24L·16H·1024.) |
| 평가 지표/보고 | 의존=UAS, 구성·의미=Unlabeled F1. 구성은 TD(Top-Down) / CP(pair 점수) / CC(characteristic 점수) 설정으로 병행 보고. |
| 주요 결과(정량) | 의존(UAS): 다국어 PLM이 전반 우세(예: XLM-R-large 32.66(영), 터키 41.62). 감독식(UDPipe/UDify)과는 큰 격차(~74–94). 의미(UCCA): 영-Wiki 45.89, 영-20K 46.30(XLM-R 기준). |
| 주요 결과(정성 패턴) | (i) 중간~후반 레이어에서 최고 성능, (ii) 다국어(XLM-R)가 전반 강세, (iii) GPT(GPT-2)는 열세(양방향 문맥 부재 추정), (iv) 문장 길이↑ → 성능↓, 터키(UCCA)는 짧은 문장 영향으로 하위 레이어/헤드가 유리. |
| 기여 | 한 모델로 3과제(의존·구성·의미) 무감독 파싱을 비교하고, 레이어/헤드·문장 길이에 따른 정보를 체계 분석. UCCA 의미 파싱의 완전 무감독 최초 보고. |
| 한계/주의 | (1) 무감독-감독 성능 격차 큼(특히 의존). (2) UCCA 변환 시 remote/implicit edge 미반영 → 의미 구조 손실. (3) 4×l×a 조합 중 최고 F1를 테스트에서 택하는 오라클 선택 편향 가능. (4) 장문·원거리 의존에 약함. (5) AR LM(GPT) 불리. |
| 학습 데이터/학습법 | 학습 없음(파인튜닝 없음). 모든 평가는 각 코퍼스의 테스트셋만 사용. 참고: 부록에 XLM-R 사전학습에 쓰인 단일언어 말뭉치 규모(영 55,608M 토큰 등) 제시(본 논문 모델 학습에 사용된 것은 아님). |
| 재현·적용 팁 | (a) 구성=CYK, 의존=Eisner, 의미=UCCA↔구성 변환 파이프라인 복원. (b) 중·후반 레이어/상위 헤드 서브셋만 사용해 경량화·실험 가속. (c) 문장 분할/짧은 샘플 우선으로 성능 확보. |
PLM(사전학습 언어모델)의 층/헤드 정보만을 이용한 완전 무감독(학습 없음) 파서를 구성해 의존구문·구성구문·의미(UCCA) 3가지 파싱을 한 모델로 수행하고, 중간∼후반 레이어가 세 과제 모두에서 가장 유용함을 보였습니다.
논문 한눈표(연구자용 요약)
항목 내용| 문제 | PLM이 학습 과정에서 자연스럽게 익힌 문법/의미 정보를 학습 없이 구문·의미 파싱에 이전할 수 있는가? 그리고 어느 레이어/헤드에 그 정보가 있는가? |
| 핵심 아이디어 | Kim et al.(2020b)의 chart-based zero-shot parsing과 syntactic distance를 그대로 활용해, PLM 레이어·어텐션 헤드 표현으로 스팬 점수를 계산하고 CYK(구성) 또는 Eisner(의존)로 트리 복원; UCCA는 구성 트리로 변환→복원하여 처리 |
| 모델/알고리즘 | 스팬 점수는 pair score(sp)·characteristic score(sc) 두 함수와 HEL/JSD 거리를 조합해 계산 → 레이어 l, 헤드 a에 대해 4×l×a개의 후보 트리 생성 후, 최고 F1 트리를 채택 |
| 데이터/설정 | 학습(파인튜닝) 전혀 없음. 테스트 세트만 사용해 평가(영/독/불/터키어). UD v2.3(의존), PTB·SPMRL·Turkish Treebank(구성), SemEval 2019 UCCA 및 Turkish UCCA(의미); 테스트 샘플 수는 부록 표7 참조. |
| 사용 PLM | 영어: BERT/XLNet/RoBERTa/GPT-2(base/large) + 독/불/터키 단일어 BERT. 다국어: mBERT, XLM-R(base/large) |
| 평가 지표 | 의존: UAS, 구성·의미: Unlabeled F1. 구성은 Top-Down(TD)/Chart-Pair(CP)/Chart-Characteristic(CC) 세 설정 병행 |
| 주요 결과(패턴) | (1) 다국어 PLM이 전반적으로 최상; (2) 중간∼후반 레이어가 세 과제 공통으로 최상; (3) 의존 파싱 성능이 가장 낮고, UCCA 의미는 구성과 유사한 수준; (4) GPT 계열은 열세(양방향 문맥 부재 때문); (5) 짧은 문장일수록 유리 |
| 대표 수치 | 의존(UAS) 영어 XLM-R-large 32.66, 독어 31.84, 불어 34.37, 터키 41.62(무감독). UCCA 의미(영) XLM-R 45.89/46.30(Wiki/20K) 등 |
| 기여 | 한 모델로 의존·구성·UCCA 의미를 완전 무감독으로 비교 분석(다국어), 레이어/헤드별 정보 위치를 체계적으로 시각화·분석. UCCA 의미의 무감독 파싱을 최초로 수행 |
| 한계 | (i) 감독식 대비 큰 격차(예: UD UAS 감독 89–94 vs 본 모델 32–42); (ii) UCCA에서 remote/implicit edge는 미복원/무시; (iii) 타 무감독 SOTA와의 직접 비교는 조건(외부정보/파인튜닝) 불일치로 생략 |
방법론: 파서 파이프라인(수식 없이, 단계별)
- 표현 추출: 문장 토큰을 PLM에 입력 → **모든 레이어(l)와 헤드(a)**의 어텐션/표현을 후보 표현 gg로 수집.
- 스팬 채점: 각 스팬(i,j)에 대해
- sp: 스팬 내부 토큰 쌍의 평균 거리
- sc: 스팬 중심 표현과 각 토큰의 평균 거리
거리 함수는 JSD/HEL 두 가지를 사용.
- 차트 점수 합성: 스팬 자체의 구성 타당성(s_comp) + **분할 타당성(s_split)**로 상향식/분할식 점수를 누적, 문장 트리 점수 s(t)s(t)를 계산.
- 디코딩:
- 구성 파싱: CYK로 최저 점수 트리 t^\hat{t} 선택
- 의존 파싱: 트리 점수에 대해 Eisner로 최적 의존트리 산출
- UCCA 의미 파싱: UCCA 그래프→구성 트리로 변환(불연속·remote edge 제거) 후 파싱 → UCCA로 역변환(불연속 회복, remote/implicit edge는 제외).
- 모델·조합 선택: (sp/sc)×(JSD/HEL)=4 조합 × (레이어 l) × (헤드 a) = 4×l×a 트리 생성 → F1 최고 결과 보고.
요약: 학습 없이 PLM 내부 거리 기반 스코어로 스팬을 평가→차트 디코딩→조합 탐색으로 최적 트리를 고르는 구조입니다.
실험 설정
- 언어/데이터: UD v2.3(의존), PTB/SPMRL/Turkish Treebank(구성), SemEval 2019 UCCA·Turkish UCCA(의미). 테스트 샘플 수: 예) 의존(영 2077/독 1000/불 416/터 979), 구성(영 2416/독 5000/불 2541/터 63), 의미(영 515+492/독 652/불 239/터 50).
- 모델: 영어 단일어 PLM(BERT/XLNet/RoBERTa/GPT-2 base·large), 각 언어 단일어 BERT, mBERT·XLM-R(base/large).
- 무감독 평가: 훈련 없음, 테스트 세트만 사용.
- 설정 표기(구성): TD/CP/CC.
- 지표: 의존 UAS, 구성/의미 unlabeled F1.
결과 및 해석 (핵심만)
공통 패턴
- 레이어 영향: 세 과제 모두 중간∼후반 레이어가 최상.
- 모델 계열: 다국어 PLM(특히 XLM-R)이 전반적으로 우세.
- GPT 열세: **양방향 문맥 부재(자가회귀)**가 원인으로 지목.
- 문장 길이: 짧을수록 성능↑, 긴 문장은 원거리 관계 포착이 어려움.
과제별 스냅샷
- 의존 파싱(UAS): 전 언어에서 중간/후반 레이어가 최고, 절대치는 구성/의미보다 낮음. (부록 비교: 무감독 32–42 vs 감독 ~90 수준)
- 구성 파싱(F1): 언어 차는 있으나 레이어 패턴은 의존과 유사; XLM-R이 강세.
- 의미(UCCA) F1: 구성과 유사하거나 근접; 영어에서 RoBERTa-base(단일어)와 XLM-R(다국어)이 모두 상위.
어텐션 헤드 분석
- 과제/언어 대부분에서 상위(Top) 헤드가 정보량이 큼. 단, 터키어 구성·의미는 하위 헤드가 더 유용(평균 문장 길이가 짧기 때문으로 해석).
타당성·의의
- 방법적 타당성: 외부 지식이나 학습 없이도, PLM 내부 표현의 거리 구조만으로 파싱이 가능함을 다과제·다언어로 제시(무감독의 엄격한 조건).
- 과학적 기여: UCCA 의미 파싱의 무감독 첫 보고 및 레이어/헤드-정보 위치를 세 과제에 대해 일관되게 규명.
- 한계/주의: (i) 절대 성능은 감독식 대비 현저히 낮음, (ii) UCCA의 remote/implicit edge 미처리, (iii) 다른 무감독 기법과의 직접 비교는 설계상 제약으로 미실시.
재현 체크리스트(실험 따라하기)
- PLM 선택: (권장) XLM-R base/large, mBERT; 비교용 단일어 BERT/XLNet/RoBERTa/GPT-2.
- 표현 추출: 모든 레이어×헤드 어텐션/표현 gg 확보.
- 거리·점수: HEL/JSD + sp/sc 4조합으로 스팬 점수 계산.
- 디코더: 구성=CYK, 의존=Eisner, UCCA=구성 변환→역변환(remote/implicit 제외).
- 탐색/선택: 4×l×a 후보 트리 생성 → 최고 F1 채택.
- 데이터/평가: UD/PTB/SPMRL/UCCA 테스트 세트만으로 UAS/F1 측정, 구성은 TD/CP/CC 세 설정 병행 보고.
- 분석 팁: 문장 길이별 성능 분할(평균 기준)로 길이 효과 확인 권장.
연구자 메모(적용 아이디어)
- 레이어 선택형 파서/임베딩: 세 과제 공통으로 중·후반 레이어가 강함 → RAG/파싱 보조 신호로 해당 레이어의 Top 헤드만 취사 선택해 경량화 가능.
- 짧은 문장 우세: 프롬프트 또는 전처리에서 문장 분할을 활용하면 무감독 파싱 성능 개선 여지.
- AR LM 주의: GPT류처럼 좌→우 컨텍스트만 쓰는 모델은 본 방식에서 불리하므로, 양방향 PLM 위주로 실험 설계 권장.
필요하면 표/그림별 세부 수치를 더 정리해 드릴게요.
아래는 업로드하신 논문을 바탕으로, 방법론(파이프라인)·작동 원리·예시·타당성/유효성/한계를 연구자 관점에서 정리한 내용입니다.
방법론: “차트 기반 제로샷 파싱”(Chart-based Zero-shot Parsing)
이 논문은 PLM(사전학습 언어모델)의 레이어·어텐션 헤드 표현만으로 스팬(span)을 채점하고, 차트 디코딩으로 트리를 복원하는 무감독 파서를 구성합니다. 동일한 원리로 구성(Constituency), 의존(Dependency), 의미(UCCA) 3가지 파싱을 “학습 없이” 한 모델로 수행합니다【】【】.
파이프라인(수식 최소화, 단계별)
- 표현 추출 (g)
- 문장 토큰을 PLM에 넣고, 모든 레이어 u와 어텐션 헤드 v의 표현을 후보로 수집합니다. 표기상 g={gd(u,v)}g=\{g_d(u,v)\}는 u번째 레이어, v번째 헤드의 표현을 의미합니다【】.
- 스팬 점수 설계 (s)
차트 점수는 트리의 모든 스팬 (i,j)(i,j)에 대한 스팬 점수 sspan(i,j)s_{\text{span}}(i,j)의 합으로 정의됩니다. 스팬 점수는 스팬 자체 타당성 scomps_{\text{comp}}와 분할 타당성 ssplits_{\text{split}}으로 재귀적으로 계산됩니다【】.
- pair score, sp(i,j)s_p(i,j): 스팬 내부 모든 토큰쌍 평균 거리(동일 스팬 내 단어쌍들이 서로 “가깝다”면 좋은 스팬)【】
- characteristic score, sc(i,j)s_c(i,j): 스팬의 중심(centroid) 표현과 각 토큰 간 평균 거리(스팬이 하나의 “덩어리”로 응집되어 있으면 좋음)【】
- 거리함수 f: Jensen-Shannon(JSD), Hellinger(HEL) 두 가지를 사용(표현 간 분포 차이를 측정)【】.
- 디코딩(트리 복원)
- 구성 파싱: 차트 기반 CYK 디코더로 점수가 최소인 트리를 선택합니다【】.
- 의존 파싱: 동일 점수 틀을 Eisner 알고리즘으로 디코딩하여 의존 트리를 만듭니다【】.
- 의미(UCCA) 파싱: 먼저 UCCA 그래프 → 구성 트리로 변환(불연속/remote edge 제거) → 제로샷 구성 파싱 수행 → 다시 UCCA 그래프로 역변환(불연속 단위만 복원, remote/implicit edge는 제외)【】.
- 레이어·헤드·점수 조합 탐색
- (점수함수: sp/sc) × (거리: JSD/HEL) = 4가지 조합을 모든 레이어×헤드에 적용 → 각 조합마다 트리를 만들어 총 4×l×a개의 후보 트리 생성 → 각 트리의 F1을 계산해 가장 높은 F1을 보고합니다【】.
- 세 과제에의 적용
- 위 파이프라인을 의존/구성/의미(UCCA) 모두에 그대로 적용합니다【】.
직관적 예시(소형 문장)
문장: “The quick brown fox jumps over the lazy dog.”
- sps_p는 스팬 내부 토큰쌍의 평균 거리를 묻습니다. 예를 들어 [quick, brown, fox]와 같은 NP 스팬은 토큰들끼리 유사 표현공간에 모여 거리 평균이 작아 좋은 스팬으로 평가됩니다.
- scs_c는 스팬 중심 표현과 각 토큰의 평균 거리를 봅니다. “over the lazy dog” 같은 전치사구(PP)도 하나의 중심으로 응집되면 좋은 스팬입니다.
- 차트 디코더는 이들 스팬 점수를 전 문장 구조로 일관되게 조합하여, (S (NP …) (VP …)) 같은 트리를 복원합니다. 구성은 CYK, 의존은 Eisner로 최적 트리를 찾습니다【】【】.
왜 이게 맞는가? (방법론의 타당성)
- 분포적 응집 = 구문 단위: 표현공간에서 같은 구문 단위(구, 절)의 토큰은 서로 가깝게 모이는 경향이 있고, PLM 레이어/헤드 표현은 이런 거리 구조를 내포합니다. 논문은 기존의 syntactic distance 기반 무감독 구성 파싱을 PLM 표현으로 일반화해 채택합니다【】【】.
- 범용성: 동일 스코어링·디코딩 틀을 **세 과제(의존/구성/의미)**에 일관 적용해 추론적 일관성을 확보합니다【】.
- 학습 없는 외부지식 이전: 파인튜닝 없이 PLM의 레이어/헤드별 정보를 그대로 끌어와 지식 이전(transfer) 가능성을 검증합니다【】.
유효성(실험 근거로 본 성립성)
- 데이터/설정: 영어·독일어·프랑스어·터키어 테스트 세트만으로 평가(UD v2.3, PTB/SPMRL/Turkish Treebank, UCCA/SemEval-2019·Turkish UCCA) → 훈련 단계 없음【】【】.
- 레이어/헤드 패턴: 세 과제 공통으로 중간~후반 레이어가 더 많은 정보를 담고, 상위(head index가 큰) 헤드가 정보가 많은 경향을 보입니다(터키어 구성·의미는 예외)【】【】.
- 문장 길이 효과: 짧은 문장일수록 정확도가 높음(원거리 의존 파악이 어려움)【】.
- 모델 계열 차이: AR LM(GPT)은 문맥 양방향 활용 제약으로 상대적 열세【】.
- 과제 간 상대 난이도: 의존 파싱이 구성·의미보다 현저히 어려움, 반면 UCCA 의미는 구성과 유사한 수준까지 도달【】.
한계 및 주의점(방법론적·실증적)
- 정량 성능 격차(무감독 vs 감독)
의존 파싱에서 무감독(UAS ~32–42)이 감독식(UDPipe/UDify ~74–94)과 큰 격차가 있습니다. 의미(UCCA)도 감독식 대비 낮습니다【】. - UCCA 변환 손실
UCCA→구성 변환 시 remote/implicit edge를 무시하므로(역변환 시도 중 불연속만 복원) 의미 그래프의 풍부한 관계가 손실됩니다【】. - 조합 탐색의 ‘테스트 선택’ 편향 가능성
레이어×헤드×(sp/sc)×(JSD/HEL)에서 만들어진 4×l×a 후보 중 최고 F1을 테스트에서 보고하므로, 개발셋 없이 과최적화(oracle 선택) 편향 우려가 있습니다【】. - 장문/원거리 한계
문장 길이가 길수록 성능 하락. 원거리 의존이나 비연속 구조에 약합니다【】. - 모델 종류 민감도
양방향 문맥을 쓰지 못하는 AR LM(GPT)은 상대적으로 부진합니다【】.
한줄 요약
PLM 내부 표현의 거리 기반 스팬 채점(sp/sc × JSD/HEL) + **차트 디코딩(CYK/Eisner)**으로 학습 없이 3가지 파싱(구성·의존·UCCA)을 수행하고, 중·후반 레이어/상위 헤드가 핵심 정보를 담는다는 것을 다언어로 확인했습니다【】【】.
거의 맞아요—하지만 두 가지를 보완하면 정확합니다.
- **뭉침의 대상은 ‘명사구’만이 아니라 모든 스팬(NP/VP/PP 등)**입니다. 이 논문은 스팬 내부 토큰들이 서로 가깝게 모일수록 좋은 스팬으로 보고, 이를 두 점수로 수치화합니다: (i) 스팬 내부 모든 토큰쌍 평균거리를 보는 pair score sps_p, (ii) 스팬 **중심(centroid)**과 각 토큰의 평균거리를 보는 characteristic score scs_c. 거리 함수는 JSD/HEL을 씁니다【】【】【】【】.
- 아마 “스팸”이 아니라 **스팬(span)**을 말씀하신 것 같아요.
- 단순 ‘가까움’만 보지 않고, 어디서 나눌지도 함께 평가합니다. 트리 점수는 모든 스팬 점수의 합으로 정의되며, 스팬 점수는 (a) 스팬 자체의 구성 타당성 scomps_{\text{comp}}과 (b) 분할 타당성 ssplits_{\text{split}}의 재귀적 분해로 계산됩니다. 이렇게 계산한 차트 점수를 이용해 구성은 CYK, 의존은 Eisner로 디코딩합니다【】【】【】【】.
- “중·후반부 레이어가 잘한다”는 방법론의 전제라기보다, 실험으로 확인된 패턴입니다. 의존·구성·UCCA 의미 파싱 세 과제 모두에서 주로 중간~마지막 쪽 레이어가 정보가 많다고 보고합니다(레이어/헤드 히트맵 포함)【】【】. 특히 초기 레이어는 성능이 낮고, 문장이 길수록 하위 레이어보다 상위 레이어가 더 유리한 경향을 보입니다. 터키어 데이터셋은 문장 길이가 짧아 예외적으로 하위 헤드가 더 유용한 경우가 있다고 해석합니다【】【】.
요약하면, 스팬 내부 응집(가까움) + 올바른 분할을 동시에 최적화하는 무감독 차트 파서를 모든 레이어/헤드에서 돌려본 뒤, 경험적으로 중·후반부 레이어가 가장 잘 맞았다는 결론입니다(의미·구문 공통)【】【】.
https://arxiv.org/abs/2412.09563
Does Representation Matter? Exploring Intermediate Layers in Large Language Models
Understanding what defines a good representation in large language models (LLMs) is fundamental to both theoretical understanding and practical applications. In this paper, we investigate the quality of intermediate representations in various LLM architect
arxiv.org
LLM의 성능은 엄청나지만 좋은 Representation은 모르겠다. => 다양한 지표를 통해 Representation 품질을 측정해보자

의미 정보가 가장 강하게 재구성되는 지점은 중간 층이다!
마지막 레이어에서는 다음 토큰 예측에 특화되며, Representation은 중간 층보다 약해진다.
임베딩 과제에서는 중간 레이어가 가장 유리하다.
| 문제 상황 | LLM에서 어떤 레이어의 표현이 ‘좋은가’를 계량화하고, 마지막 레이어 대신 중간 레이어가 더 유리한지 아키텍처/훈련단계/입력교란/프롬프트 길이까지 포괄해 조사. 주요 주장: 중간 레이어가 다운스트림 임베딩 태스크에서 일관되게 더 낫다. |
| 방법론(요지) | 레이어별 표현을 추출해 표현 품질 지표 묶음으로 계층별 곡선을 그리고 비교. 지표는 (1) 프롬프트 엔트로피(행렬 기반 Rényi 대체; α→1은 RankMe) (2) 곡률(인접 토큰 벡터 방향 변화 평균) (3) 증강 불변성: InfoNCE/DiME/LiDAR. 모델은 Transformer와 SSM을 포함. |
| 데이터 | WikiText-103(100M 토큰, Featured articles; 30토큰 미만/제목 제외) + ai-medical-chatbot(의료 지시형). 이 두 도메인으로 아키텍처·레이어별 분포/이상현상도 관찰. |
| 학습/실험 설정(모델·학습법) | 모델: Pythia-410M, Mamba-130M/370M, LLM2Vec-unsup-simcse, Llama3-8B, Mamba2-8B. 학습법: 신규 학습 없이 사전학습 모델의 레이어별 표현 사용. 다만 Pythia는 훈련 체크포인트(1→143k step)를 따라 지표 변화를 분석(중간층 변화가 가장 큼). |
| 지표(정의·산출) | Prompt Entropy: ![]() 다양성↑→엔트로피↑, 압축↑→엔트로피↓. Curvature: ![]() Aug.-Invariance: InfoNCE(MI 하한, ↓가 불변성↑), DiME(정합 vs 랜덤쌍 MI, ↑가 불변성↑), LiDAR(LDA 응집도, 클래스=원문, J=16 증강/클래스). |
| 증강/교란(구현) | 증강: NLPAug로 Split/RandomChar/Keyboard(각 p=0.3), 쌍 증강 생성(길이 변동 가능). 극단 입력: (i) 반복↑ (ii) 무작위 치환↑ (iii) 길이↑; 엔트로피 반응을 레이어별로 분석. |
| 실험(다운스트림) | MTEB 32태스크(분류·클러스터링·재순위)로 레이어별 임베딩 성능 비교(최적 레이어 vs 마지막 레이어). MMLU 57과목에서 엔트로피–정확도 상관을 Llama3-8B vs Mamba2-8B로 분석. |
| 주요 결과(정량) | 중간 레이어 > 마지막 레이어: LLM2Vec-8B 64.7→66.8, Pythia-410M 49.8→53.3, Mamba-130M 46.9→50.9(평균 정확도, 최적 중간층 선택 시 ≥+2%p). Llama3-8B 중간층은 엔트로피와 정확도 강한 음의 상관(≈-0.43), Mamba2-8B는 상관 약함. |
| 아키텍처 차이 | Transformer(Pythia): 중간층에서 엔트로피↓·LiDAR↑ 등 큰 변화(압축/응집). SSM(Mamba): 층 전반 완만/안정. |
| 입력 교란 반응 | 반복↑→중간층 엔트로피↓, 무작위↑→초기층 엔트로피↑, 길이↑→비정규화 엔트로피↑(토큰 수 효과). |
| 특이 관찰 | 중간층 엔트로피 ‘이봉’(bimodal): Transformer에서 두 모드가 관측. 길이/난이도/훈련데이터 중복으로 설명되지 않음(원인 미상). |
| 타당성(왜 신뢰?) | (i) 이론적 정합성: 엔트로피는 고유치 스펙트럼으로 다양성/압축을 포착(α→1은 RankMe), 곡률은 토큰 궤적의 형태, InfoNCE/DiME/LiDAR는 증강 불변성을 상보적으로 계량. (ii) 실증 일치: MTEB의 중간층 우수성과 Llama3-8B의 엔트로피–정확도 음의 상관이 합치. |
| 한계 | 범위: 임베딩 중심 32태스크·두 도메인 위주. 상관≠인과(압축→성능 향상 인과 미확정). 이봉 현상 원인 미상. |
| 기여 | (1) 중간 레이어 우수성을 표준 벤치로 체계적 실증 (2) 표현 품질 지표 묶음(엔트로피·곡률·InfoNCE/DiME/LiDAR)을 LLM에 적용/확장 (3) 아키텍처/훈련진행/입력교란/길이에 따른 계층 동학 제시 (4) 이봉 엔트로피 발견으로 후속 연구 과제 제안. |
| 즉시 적용 체크리스트 | ① 탐색 깊이: Transformer 계열은 전체 깊이의 60–85%에서 후보 레이어 우선(엔트로피 저점·불변성 고점 근방) ② MTEB 소량 서브셋으로 후보 레이어 vs 마지막 레이어를 빠르게 A/B ③ 증강 불변성 스코어(InfoNCE/DiME/LiDAR)로 상위 레이어 1–3개 선정·앙상블 ④ 입력 반복/무작위/길이 스트레스 테스트로 곡선 패턴이 논문 경향과 맞는지 점검. |
좋은 자료 업로드 고마워요! 아래는 업로드하신 “Does Representation Matter? Exploring Intermediate Layers in Large Language Models”를 바탕으로, 연구 문제·방법·실험·결과·기여·한계를 한국어로 체계적으로 정리한 내용입니다. (모든 요약·주장은 논문 본문에 근거합니다. )
한 줄 핵심
최종 레이어보다 중간 레이어 표현이 임베딩 기반 다운스트림에서 더 좋고(여러 모델·아키텍처에서 반복 확인), 표현 품질은 엔트로피·곡률·증강 불변성 지표로 계층별로 정량화할 수 있다.
1) 무엇을 풀었나 (Problem)
LLM 내부 어떤 레이어의 표현이 ‘좋은’ 표현인가?
기존은 주로 마지막 레이어만 사용했지만, 실제로는 중간 레이어가 더 일반적·전이 가능한 특징을 담는지 체계적으로 검증하고 싶다. Transformer와 SSM(Mamba)까지 포함해 아키텍처/학습 단계/입력 교란/프롬프트 길이에 따라 표현 품질이 어떻게 달라지는지도 조사했다.
2) 어떻게 접근했나 (Method – step-by-step)
Step 1. 모델·데이터 구성
- 아키텍처: Transformer(Pythia 410M, LLM2Vec 8B), SSM(Mamba 130/370M), 대규모 비교용으로 Llama3-8B vs Mamba2-8B.
- 데이터: 일반 도메인 WikiText-103, 의료 지시형(ai-medical-chatbot)으로 표현 특성 도메인 의존성도 관찰.
Step 2. 레이어별 표현 추출
모든 레이어의 토큰 임베딩/프롬프트 임베딩을 추출해 레이어 깊이(%) 축으로 정렬해 비교 가능하게 했다.
Step 3. 표현 품질 지표 정의
- Prompt Entropy(=RankMe 한계): 프롬프트 내 토큰 임베딩 다양성(행렬 기반 엔트로피). 낮을수록 몇 개 주성분에 정보가 응축(압축)된 상태.
- Curvature: 인접 토큰 벡터 방향 변화량 평균(문장 궤적의 굴절).
- 증강 불변성 계열(프롬프트 평균 임베딩 비교):
- InfoNCE(쌍 증강 유사성), DiME(행렬 엔트로피 차 기반 MI 추정), LiDAR(LDA로 증강군 응집도). 높을수록 같은 원문에서 파생된 증강 간 표현 일치가 강함.
증강은 NLPAug로 문자 분할/치환/키보드 인접 치환 등을 사용.
- InfoNCE(쌍 증강 유사성), DiME(행렬 엔트로피 차 기반 MI 추정), LiDAR(LDA로 증강군 응집도). 높을수록 같은 원문에서 파생된 증강 간 표현 일치가 강함.
Step 4. 다운스트림 검증(MTEB & MMLU)
- MTEB 32개 태스크로 각 레이어 표현의 임베딩 성능을 비교(분류/클러스터링/재순위). 마지막 레이어가 최적이 아닐 때가 대부분인지 확인.
- MMLU에서 레이어별 엔트로피와 정확도 상관을 분석(특히 Llama3-8B에서 음의 상관).
Step 5. 진화/교란 조건 분석
- 학습 진행 단계별 체크포인트로 레이어별 지표 변화를 관찰(초기→143k step).
- 극단 입력(토큰 반복·무작위 치환·길이 증가)에서 엔트로피가 어떻게 반응하는지 평가.
- 이상 현상 탐지: 중간 레이어에서 엔트로피 이봉(bimodal) 분포가 관측되는 원인 탐색(길이·의미 복잡도·트레이닝 중복 가설 검증) → 미해결 문제로 남김.
3) 무엇을 보였나 (Key Results)
- 중간 레이어 > 마지막 레이어: LLM2Vec-8B, Pythia-410M, Mamba-130M 모두 최적 성능 레이어가 마지막이 아님(LLM2Vec 100%, Pythia 96.6%, Mamba 100%). 평균도 Best-Layer > Last-Layer(예: Pythia 53.3% vs 49.8%).
- 아키텍처 차이: Pythia(Transformer)는 중간에서 엔트로피 급감(정보 압축), InfoNCE 피크 등 표현 변화가 크다. Mamba(SSM)는 층 전체가 더 안정적(변화 완만).
- 학습 진행 효과: 가장 큰 변화는 중간 레이어에서 발생. 훈련이 진행될수록 엔트로피↓(압축), 동시에 증강 불변성↑ 경향. 초기 레이어는 대체로 안정.
- MMLU 상관: Llama3-8B는 중간 이후 레이어의 엔트로피가 낮을수록 정확도↑(강한 음의 상관). Mamba2-8B는 이런 패턴이 미약. 엔트로피 압축이 과제 성능과 연결될 수 있음을 시사.
- 극단 입력 반응:
- 토큰 반복↑ → 엔트로피↓(중간 레이어에서 강함: 중복 패턴을 압축).
- 토큰 무작위성↑ → 엔트로피↑(초기 레이어 민감).
- 길이↑ → 비정규화 엔트로피↑(토큰 수 효과).
- 이봉 엔트로피: Transformer 중간 레이어에서 두 개 모드가 나타나는 현상 관찰. 길이·의미 복잡도·학습 데이터 중복으로는 설명이 불충분 → 원인 미상.
4) 왜 타당한가 (Validity & Reasoning)
- 표현 품질 지표의 설계 근거: RankMe(행렬 기반 엔트로피)는 주성분 스펙트럼을 통해 다양성/압축을 반영, InfoNCE/DiME/LiDAR는 증강 쌍의 결속도를 통해 불변성을 정량화한다. 서로 다른 축(다양성 vs 불변성)을 결합해 **레이어별 표현의 두 얼굴(압축·불변화)**을 포착한다.
- 다운스트림 일치성: MTEB에서의 중간 레이어 우수성과 MMLU에서의 엔트로피-성능 음의 상관이 합치(Transformer에서 특히 강함). 이는 “최종 레이어는 다음 토큰 예측에 특화된 분포”일 수 있고, 중간 레이어가 전이·검색에 더 일반적 특징을 가진다는 기존 관찰과 부합.
5) 한계 (Limitations)
- 모델·태스크 범위: 다양한 모델을 다루지만, 초거대 스케일/다언어·문서수준 RAG까지 포괄하지는 않음. MTEB도 32개 하위셋 중심.
- 엔트로피-성능의 인과성: 상관을 보였을 뿐(특히 Llama3) 인과는 아님.
- 이봉 현상: 원인 규명이 미흡(데이터 중복·길이로 설명 불가). 해석 여지 남음.
6) 연구 기여 (Contributions)
- 중간 레이어의 일관된 우수성을 다양한 아키텍처에서 실증(MTEB). 2) 표현 품질 지표 묶음(엔트로피·곡률·증강 불변성)을 LLM 레벨로 이식해 레이어 단위 진단 도구 제시. 3) 훈련 진행·입력 교란·아키텍처 요인에 따른 계층별 표현 동학을 체계적으로 제시. 4) 이봉 엔트로피라는 새 관찰로 후속 메커니즘 연구 과제를 제기.
8) 핵심 표(한 장으로 회상 가능)
항목 정리| 문제 상황 | LLM의 어느 레이어 표현이 좋은가를 정량적으로 비교·설명하고, 최종 레이어 편향을 재검토. Transformer vs SSM까지 포괄. |
| 방법론 | 레이어별 임베딩을 뽑아 **엔트로피/곡률/증강 불변성(InfoNCE·DiME·LiDAR)**로 품질 측정 → MTEB/MMLU와 연계 분석. 극단 입력·훈련 단계 효과도 점검. |
| 데이터/모델 | WikiText-103, ai-medical-chatbot; Pythia-410M, LLM2Vec-8B, Mamba-130/370M, Llama3-8B, Mamba2-8B. |
| 실험 설정 | MTEB 32 태스크에서 레이어별 임베딩 성능 비교, MMLU 정확도–엔트로피 상관 분석, 체크포인트별 진화, 극단 입력(반복/무작위/길이) 반응 분석. |
| 주요 결과 | (1) 중간 레이어가 최종 레이어를 일관되게 능가(예: Pythia 53.3% vs 49.8%). (2) Transformer는 중간층 압축·불변성 증가가 뚜렷, SSM은 안정. (3) 학습 진행 시 중간층 변화가 최대. (4) Llama3-8B에서 엔트로피↓ ↔ 성능↑ 음의 상관. |
| 시사점 | 임베딩·전이/RAG에서는 마지막 레이어 고정관념을 버리고 중간층을 1차 후보로. 레이어 선택은 엔트로피 저점·불변성 고점을 지표로 자동화 가능. |
| 한계 | 모델·태스크 범위 제한, 상관–인과 구분 한계, 이봉 엔트로피 원인 미상. |
| 재현 팁 | 60–85% 깊이 탐색 → 엔트로피/InfoNCE 스코어 기반 후보 선정 → 한국어 MTEB 서브셋으로 검증 → 가벼운 InfoNCE 미세조정. 극단 입력으로 민감도 테스트. |
아래 내용은 업로드하신 논문 “Does Representation Matter? Exploring Intermediate Layers in LLMs”에 근거해, 방법론을 단계별로 풀어쓰고(예시 포함), 타당성·한계·기여를 정리한 것입니다.
한 줄 핵심
이 논문은 LLM의 중간 레이어 표현이 마지막 레이어보다 임베딩 기반 다운스트림 성능에 더 좋다는 사실을 다양한 아키텍처와 조건에서 보였고, 이를 엔트로피·곡률·증강 불변성(InfoNCE/DiME/LiDAR) 지표로 계층별 정량화했습니다.
방법론: 무엇을, 어떻게 측정했나 (step-by-step)
1) 대상과 설정
- 모델/아키텍처: Transformer(Pythia 410M, LLM2Vec-8B)와 SSM(Mamba 130/370M), 대형 비교로 Llama3-8B vs Mamba2-8B를 포함해 계층별 표현 품질을 본다.
- 데이터셋: 일반 도메인 WikiText-103와 지시형 의료 데이터셋을 사용해 도메인 변화에 따른 표현 동학을 관찰한다.
2) 레이어별 표현 추출
각 레이어에서 토큰 임베딩을 추출한다. 증강 불변성 평가는 증강으로 길이가 바뀔 수 있으므로 **토큰 평균(문장 수준 벡터)**으로 비교한다.
3) 지표 ① 토큰 다양성: 프롬프트 엔트로피
- 정의: 토큰 임베딩 분포의 다양성을 α-order matrix-based entropy(Rényi 대리)로 계산(커널 기반). 값이 낮을수록 정보가 소수 성분에 압축된 상태를 의미한다.
- 직관적 예시: “고양이가 매트 위에 앉았다”처럼 규칙적 문장은 토큰 임베딩 궤적이 유사 축에 모여 엔트로피가 낮아지고, 무작위 치환/삽입이 많아질수록 분산이 커져 엔트로피가 높아진다(논문은 엔트로피로 레이어 간 압축 정도를 본다).
4) 지표 ② 토큰 궤적의 곡률(curvature)
연속 토큰 벡터의 **방향 변화 평균(두 벡터 사이 각도의 아크코사인 평균)**으로 정의한다. 작을수록 직선적(일관), 클수록 굴절이 많음을 뜻한다. (식 (2))
5) 지표 ③ 증강 불변성: InfoNCE, DiME, LiDAR
- 공통: 원문 프롬프트를 다양한 방식으로 증강해 쌍을 만들고, 같은 원문에서 나온 증강끼리 얼마나 가까운가를 잰다(세부 증강은 부록 F). 비교는 문장(평균 임베딩) 단위로 수행.
- InfoNCE: 증강 쌍 간 상호정보량 하한을 이용한 손실(낮을수록 같은 쌍이 더 가깝다=불변성 높음).
- DiME: 올바른 증강 짝과 무작위 매칭을 비교하는 행렬 엔트로피 기반 MI 추정(높을수록 불변성 강함).
- LiDAR: LDA 관점에서 동일 원문 증강군의 응집도를 측정(클수록 불변성 강함). 실험에선 프롬프트 N개 × 증강 16개/클래스를 사용했다.
작동 예시(직관):
문장 A “혈압을 낮추는 생활습관은?”에서 철자/동의어 치환 등 증강 A1,A2를 만든다.
- InfoNCE는 (A1,A2)을 양성, (A1,다른 문장 B1)은 음성으로 분리해 학습/측정.
- DiME는 (A1,A2) 정합 vs (A1,무작위로 섞은 A2) 정합의 격차를 본다.
- LiDAR는 {A1…A16}이 동일 클래스(문장 A)로 얼마나 타이트하게 군집하는지 본다. (정의는 위 인용 참조)
6) 비교·검증 절차
- **MTEB(32 태스크)**에서 레이어별 임베딩을 그대로 써서 분류/클러스터링/재순위를 평가해 **“어느 레이어가 가장 좋은가”**를 정한다.
- MMLU에선 레이어별 엔트로피–정확도 상관을 분석해, **정보 압축(엔트로피↓)**이 성능과 어떤 관계인지 본다(Llama3-8B에서 음의 상관).
- 아키텍처 차이는 깊이(정규화) 축으로 엔트로피·InfoNCE·DiME·LiDAR 곡선을 비교한다.
핵심 관찰(방법의 산출물로서)
- 중간 레이어의 일관된 우수성: LLM2Vec-8B, Pythia-410M, Mamba-130M 모두 최상 레이어가 마지막이 아님. 평균 성능도 Best-Layer > Last-Layer(예: Pythia 53.3% vs 49.8%).
- 아키텍처 차이: Pythia는 중간층에서 엔트로피·LiDAR 급변(압축/응집), Mamba는 비교적 완만/안정.
- 엔트로피–성능 관계: Llama3-8B는 중간 이후 엔트로피가 낮을수록 MMLU 정확도↑(강한 음의 상관), Mamba2-8B는 뚜렷하지 않음.
- 이상 현상: 중간층 **엔트로피 이봉(bimodal)**이 관측되며, 길이·의미 난이도·트레이닝 중복 등으로 설명되지 않았다(원인 미상).
왜 타당한가? (Validity)
- 지표 설계의 정합성:
- 엔트로피는 토큰 임베딩 분포의 다양성/압축을 커널-기반으로 포착(분포 가정 불필요).
- 곡률은 연속 토큰 궤적의 형태 변화를 각도 평균으로 포착.
- InfoNCE/DiME/LiDAR는 증강 쌍 응집도를 서로 다른 통계적 관점으로 평가(상호정보량 하한, 무작위 매칭 대비, LDA 응집도). 서로 보완적이다.
- 다운스트림 일치성:
- MTEB에서 중간 레이어>마지막 레이어 경향이 광범위하게 재현되며, Llama3-8B의 엔트로피–정확도 음의 상관이 이를 뒷받침한다(압축이 유의한 특성 추출과 연결).
한계(Limitations)
- 범위 제한: 임베딩 중심의 MTEB 32 태스크로 보였으나, 더 광범위 태스크/언어/초거대 스케일에 대한 검증은 남아 있다.
- 상관≠인과: Llama3-8B의 엔트로피–성능 음의 상관을 보였지만 인과로 확정하지 않는다(논문도 ‘가설’로 제시).
- 이봉 현상 미해결: 길이/난이도/트레이닝 중복으로 설명되지 않았으며 기저 원인은 추후 과제.
기여(Contributions)
- 중간 레이어의 우수성을 다양한 아키텍처에서 체계적으로 보였고,
- LLM 맥락에 표현 품질 지표 묶음(엔트로피·곡률·증강 불변성)을 도입·적용했으며,
- 훈련 진행·입력 무작위성·프롬프트 길이·아키텍처에 따른 계층별 변화 양상을 분석했다.
실무 적용 팁(빠른 재현 체크리스트)
- 탐색 범위: Transformer계 모델은 전체 깊이의 **중간~상중단(예: 60–85%)**에서 엔트로피 저점·불변성 지표 고점을 우선 후보로 삼는다(논문 관찰과 합치).
- 평가 루틴: 후보 레이어 임베딩으로 당신의 한국어 MTEB 서브셋을 즉시 테스트(분류·클러스터링·재순위). 결과가 마지막 레이어보다 우수한지 비교.
- 안정성 점검: 프롬프트 길이 변화나 랜덤 치환에 대해 **지표 곡선(엔트로피/InfoNCE 등)**이 논문 경향과 유사한지 확인(Transformer는 중간에서 변화가 크고, SSM은 완만).
한 장 요약 표
항목 내용| 목적 | “좋은 레이어 표현은 어디인가?”를 지표화(엔트로피·곡률·증강 불변성)하여 계층별 비교. |
| 핵심 지표 | 엔트로피(토큰 다양성·압축), 곡률(토큰 궤적 굴절), InfoNCE/DiME/LiDAR(증강 불변성). |
| 실험 | MTEB 32 태스크 레이어별 성능, MMLU 엔트로피–정확도 상관, 아키텍처/학습단계/입력무작위/길이 분석. |
| 주요 결과 | 세 모델 모두 중간 레이어>마지막 레이어(예: Pythia 53.3% vs 49.8%), Transformer는 중간층 압축/응집 두드러짐. |
| 특이 관찰 | 이봉 엔트로피 존재(길이/난이도/학습중복으로 설명 불가 → 원인 미상). |
| 기여 | 중간 레이어 우수성 체계적 실증, 표현 품질 지표 묶음 LLM 도입/확장, 계층 동학 분석. |
| 한계 | 태스크·스케일 범위 제한, 상관 분석 중심, 이봉 현상 미해결. |
원하시면, 이 지표들(엔트로피/곡률/InfoNCE/DiME/LiDAR)을 Qwen2.5-0.5B 레이어 스캐너로 코드화해 드려서, 당신의 l_cut 후보 레이어 자동 탐색(엔트로피 저점·불변성 고점)과 한국어 MTEB 서브셋 빠른 벤치마크까지 한 번에 돌릴 수 있게 구성해 드릴게요.
좋아요—업로드한 Figure(아래 6개 패널)만 제대로 읽어내면, 이 논문의 방법론이 한눈에 들어옵니다. 핵심은 **여러 학습 체크포인트(1→143k step)**에서 레이어별 표현 품질 지표를 그려 보니, 중간 레이어에서 학습의 효과가 가장 크게 나타난다는 겁니다. x축은 레이어(또는 깊이%)이고, 점 색이 연→진할수록 학습이 많이 진행된 체크포인트예요.
그림을 지표별로 읽기 (패널 a–f)
(a) Prompt Entropy
- 무엇: 한 프롬프트 안의 토큰 임베딩 다양성/분산을 커널 기반 행렬 엔트로피로 계산(α→1 한계가 RankMe).
- 읽는 법: 값↓ = 더 많이 압축된 표현(소수의 주성분에 정보가 모임).
- 관찰: 학습이 진행될수록 중간 레이어의 엔트로피가 크게 감소 → 모델이 그 구간에서 의미 정보를 압축/추상화한다는 신호.
(b) Curvature
- 무엇: 연속 토큰 벡터의 방향 변화 평균(각도); 궤적이 얼마나 굽는지.
- 읽는 법: 값↑ = 토큰 간 방향 변화가 많음(특징 경계가 선명해지는 느낌).
- 관찰: 중간 레이어 근방에서 학습에 따라 곡률이 도드라지며, 표현 구조가 그 구간에서 많이 재편됨(패턴 변화의 중심이 중간층).
(c) InfoNCE
- 무엇: 두 증강 프롬프트 쌍의 MI 하한을 쓰는 대표 대조학습 지표(여기선 레이어 비교용).
- 관찰: 중간 레이어에서 피크. 저자 해설은 이를 “표현이 더 **분별적(distinct)**으로 변한다”는 신호로 읽습니다.
- 메모: InfoNCE는 원래 “손실”로 더 낮을수록 불변성이 강하다고 해석하곤 합니다. 이 논문은 지표 값 자체의 상대적 변화로 레이어 간 경향을 읽고, 피크를 분별성 강화로 해석합니다(그 점만 주의).
(d) LiDAR
- 무엇: 각 원문을 클래스로 보고, 그 원문에서 만든 증강들이 얼마나 촘촘히 군집하는지(LDA 분산 기반) — 실험에선 N개 프롬프트×J=16 증강/클래스 사용.
- 관찰: 학습이 진행될수록 중간 레이어에서 값이 하락(표현 공간의 특정 차원에서 변동성이 줄고 정리되는 양상).
(e) DiME
- 무엇: 올바른 증강 짝(Z₁,Z₂)과 **무작위 매칭(ΠZ₂)**의 차이를 행렬 엔트로피로 비교(값↑ = 진짜 쌍이 무작위보다 확실히 가깝다 = 불변성↑).
- 관찰: 학습이 진행되며 중간 레이어에서 전반적으로 감소(이 논문 설정에서는 LiDAR와 함께 “특정 차원의 가변성 축소”로 요약).
(f) DiME / Prompt Entropy
- 무엇: DiME를 엔트로피로 나눠 불변성 신호를 “토큰 다양성”에 대해 정규화해 본 패널(그림 캡션 표기 그대로).
- 읽는 법: 엔트로피(복잡도) 대비 **불변성(증강 일치)**이 어디서 상대적으로 두드러지는지 보는 보조지표. 후반 체크포인트에서 중간 레이어 비중이 커짐을 확인할 수 있습니다(시각적 경향).
전체 결론: 초기 레이어는 학습 내내 안정적인 반면(토크나이즈/디토크나이즈 초깃단 처리 가설과 부합), **중간 레이어에서 엔트로피↓·곡률/InfoNCE 변화↑·LiDAR/DiME↓**가 동시에 일어나며 학습 효과가 가장 크다는 점이 핵심입니다.
이 그림이 ‘방법론’을 어떻게 보여주나
- 레이어별 표현 추출: 각 레이어에서 토큰 임베딩을 얻고(프롬프트마다) — 증강을 쓸 때는 길이가 바뀌니 토큰 평균으로 문장 벡터를 만들어 비교합니다.
- 품질 지표 계산:
- Prompt Entropy(토큰 다양성/압축)
- Curvature(토큰 궤적의 방향 변동)
- InfoNCE / DiME / LiDAR(증강 불변성)
- 증강은 NLPAug의 Split / RandomChar / Keyboard를 조합해 두 개의 증강 쌍을 만듭니다(각 p=0.3).
- 학습 진행 축 추가: 동일 모델(Pythia)에서 여러 체크포인트(1→143k)를 찍어 위 지표를 레이어별로 곡선으로 그립니다(깊이% 정규화로 아키텍처 간 비교도 가능).
- 해석: 중간 레이어에서 지표들이 가장 크게 요동 → 학습이 ‘표현 재구성’을 주로 중간층에서 일으킨다는 귀결.
왜 이게 유효한가(타당성)
- 지표들은 상보적 시각을 줍니다:
- 엔트로피는 “얼마나 압축됐나(다양성↓)”를, 곡률은 “토큰 궤적이 얼마나 바뀌나”를, LiDAR/DiME/InfoNCE는 “증강에 대해 표현이 얼마나 일관되나/분별적인가”를 각각 측정하도록 설계.
- 다운스트림과의 정합: 같은 논문은 MTEB 32태스크에서 **중간 레이어 임베딩이 마지막 레이어보다 항상 좋다(≥+2%p)**고 보고, Llama3-8B에선 엔트로피↓ ↔ MMLU 정확도↑ 음의 상관도 관찰합니다.
→ 즉, 중간층 압축/재조직 신호가 실제 전이·임베딩 성능 향상과 맞물려 있어요.
마지막으로, 한 줄 요약
이 Figure는 “학습의 핵심 변화는 중간 레이어에서 일어나고 그 결과 임베딩 과제에서 중간 레이어가 가장 유리하다”를 지표 6종으로 동시에 보여줍니다.
짧게 정리하면:
- 무엇을 “학습 중”에 봤나?
Pythia-410M의 사전학습 진행 체크포인트(초기 step→143k step)에서, 같은 프로토콜로 레이어별 히든스테이트를 뽑아 지표(엔트로피·곡률·InfoNCE·LiDAR·DiME)를 계산했습니다(그림 2). - 그때 어떤 데이터로 측정했나?
주로 WikiText-103(HF: Salesforce/wikitext; 1억 토큰, 30토큰 미만·섹션제목 제외)과 ai-medical-chatbot(의료 지시형) 프롬프트로 측정했습니다. - 증강 불변성 지표(InfoNCE/DiME/LiDAR)는 어떻게 입력을 만들었나?
NLPAug로 Split / RandomChar / Keyboard 증강을 사용했고, 각 증강은 기본 파라미터(예: p=0.3)로 두 개 증강쌍을 만들어 비교했습니다. (길이가 변할 수 있어 문장 임베딩은 토큰 평균으로 계산) - 극단 입력(그림 3) 실험은?
WikiText에서 1,000개 프롬프트를 뽑아 (i) 반복 비율↑, (ii) 랜덤 치환 비율↑, (iii) **랜덤 프롬프트 길이↑**로 변형해 엔트로피의 레이어별 변화를 관찰했습니다. - 모델들이 원래 무엇으로 학습됐는지도 언급되나?
Pythia/Mamba(그리고 일부 Llama3)는 PILE로 사전학습되었다고 가정하며, 저자들은 의료 데이터셋과 PILE 간 학습 데이터 중복이 이봉 엔트로피의 원인인지도 검증했지만, 결정적 요인은 아니라고 보고합니다. - 다운스트림 검증은?
체크포인트 측정과 별개로, MTEB 32태스크에서 각 레이어 임베딩을 그대로 써서 최적 레이어 vs 마지막 레이어를 비교했어요(세 아키텍처 모두 중간 레이어가 우세).
요약: Pythia 사전학습의 여러 체크포인트에서, WikiText-103/ai-medical-chatbot 프롬프트(및 NLPAug 증강)로 레이어별 히든스테이트를 수집해 표현 지표를 계산했고, 별도로 MTEB로 “중간 레이어가 더 좋다”를 검증했습니다.
https://arxiv.org/abs/2502.02013v1
Layer by Layer: Uncovering Hidden Representations in Language Models
From extracting features to generating text, the outputs of large language models (LLMs) typically rely on their final layers, following the conventional wisdom that earlier layers capture only low-level cues. However, our analysis shows that intermediate
arxiv.org
여기서도 위 논문과 비슷한 과정을 진행합니다
그리고 최종 레이어보다 중간 레이어의 임베딩 품질이 더 좋다는 결론이 나오죠
| 문제 상황 | LLM에서 “최종 레이어가 항상 최선인가?”라는 통념을 검증. 다양한 아키텍처(트랜스포머, SSM, BERT)와 32개 MTEB 임베딩 태스크에서 레이어별 임베딩 품질을 체계적으로 비교한다. |
| 방법론(프레임워크) | 표현행렬 Z의 Gram ZZ^⊤ 스펙트럼을 공통 렌즈로 삼아 정보이론(프롬프트/데이터셋 엔트로피·유효랭크), 기하(곡률), 증강 불변성(InfoNCE·LiDAR·DiME)를 단일 틀에서 연결하여 레이어별 표현 품질을 정량화한다. 이 프레임워크로 중간 레이어가 정보 보존과 잡음 제거 사이의 균형점을 이룬다는 설명을 제시. |
| 이론적 연결(핵심 부등식) | (요지) InfoNCE–상호정보량–엔트로피가 서로 경계·상계 관계로 묶이며, 표현 엔트로피 H(Z)가 불변성·분리도와 함께 “좋은 표현”을 가늠하는 공통 잣대가 됨(예: log N − InfoNCE ≤ I(X;Z) ≤ H(Z)). |
| 실험 설정 | 모델: 트랜스포머(디코더·인코더), BERT, Mamba(SSM) 등, 수천만~십억 규모. 평가: MTEB 32개 임베딩 태스크에서 모든 레이어 출력을 임베딩으로 사용해 비교(그림 1). 일부 분석은 서브레이어(프리/포스트·잔차 등) 단위, 학습 진행 단계, CoT 파인튜닝(Qwen2.5-Math), 비전(AIM 포함)까지 확장. |
| 주요 결과(정량·현상) | 1) 중간 레이어 > 최종 레이어: 32개 태스크 평균에서 최대 +16%p까지 우세(최종층은 사전학습 목적에 특수화 경향). 2) AR 목적이 중간 병목(엔트로피 ‘valley’)을 유도—LLM뿐 아니라 AR 비전(AIM)에서도 동일 패턴. 3) 잔차(residual) 결합 지점에서 엔트로피 급락 → 중간 압축의 직접 원인. 4) 스케일↑일수록 병목·불변성 경향이 더 뚜렷. 5) CoT 파인튜닝은 토큰 엔트로피를 높게 유지(분산↓) → 문맥 보존·다단계 추론에 유리. 6) 극단 입력(반복/랜덤/길이)에 따른 층별 엔트로피 반응 패턴 제시. |
| 지표–성능 상관 | DiME, 곡률, InfoNCE 등이 다운스트림 성능과 강한 상관을 보임(모델별로 일관된 경향). |
| 기여(요약) | (i) 중간 레이어 우수성을 대규모·다아키텍처·다태스크로 체계 검증, (ii) 정보이론–기하–불변성을 Gram 엔트로피 중심의 단일 프레임워크로 통합, (iii) AR 목적·잔차 결합이 만드는 중간 병목의 원인을 서브레이어·학습진행 관찰로 규명, (iv) 비전(AIM)까지 확장해 목표 함수(AR)의 범모달적 영향 제시. |
| 한계·주의 | (a) 주로 영문 MTEB 기반—한국어/도메인 일반화는 별도 검증 필요, (b) 이론 연결은 특정 가정·설정에 의존(부록 증명), (c) 초대형(>10B) 전범위 일반화·실전 비용–효율 트레이드오프는 미확인, (d) 프리프린트 단계. |
| 실험에 바로 쓰는 포인트 | • 레이어 선택: 디코더형(AR) LLM은 전체 깊이의 40–70% 구간을 1차 후보(엔트로피 너무 낮지 않으면서 곡률↓·DiME/InfoNCE 양호 지점). • 잔차 인접 레이어에서 임베딩 추출도 유효(잔차 직후 압축 극대화). • CoT/수학 데이터로 소량 파인튜닝 시 문맥 보존↑. • 변형 입력(반복/랜덤/길이)으로 견고성 레이어 스캔. |
좋아, 업로드한 논문(PDF: Layer by Layer: Uncovering Hidden Representations in Language Models)을 논문 기반으로 체계적으로 한국어로 정리해줄게. 핵심은 “마지막 레이어 대신 중간 레이어 임베딩이 더 좋은 표현을 주는 경우가 일관되게 많다”는 발견과, 이를 정보이론·기하·불변성(증강 불변) 관점의 통합 지표로 설명했다는 점이야.
한눈에 보는 요약 표
구분 핵심 내용| 문제 상황 | LLM 활용 시 “마지막 레이어가 최선”이라는 통념 검증. 실제로는 중간 레이어가 더 풍부하고 견고한 표현을 주는가? 다양한 아키텍처/작업에서 일반적인 현상인가? |
| 핵심 아이디어 | 표현 품질을 하나의 렌즈로 보기 위해 “행렬 기반 엔트로피(Gram=ZZᵀ 고유값 분포)”를 중심으로 정보압축(엔트로피/유효랭크), 기하(곡률), 증강 불변성(InfoNCE, LiDAR, DiME)을 통합 평가. 중간 레이어가 정보 보존과 잡음 제거의 균형점을 형성한다는 통합 설명 제시. |
| 메트릭(7종) | 정보이론: 프롬프트 엔트로피, 데이터셋 엔트로피, 유효 랭크. 기하: 곡률. 불변성: InfoNCE, LiDAR, DiME. 이들 모두 Gram 고유값(entropy)과 연결됨. |
| 이론 결과 | (1) 유효랭크 ≤ exp(행렬 엔트로피) (하한) (2) 프롬프트 엔트로피가 크면 데이터셋 엔트로피가 크게 스케일 (3) InfoNCE가 낮을수록 I(X;Z)↑이고 H(Z)로 상계됨 → 불변성 향상 ↔ 엔트로피 증가. |
| 실험 설정 | 모델: Pythia·LLaMA3(디코더), BERT(인코더), Mamba(SSM), LLM2Vec 파생 포함. 작업: MTEB 32개(영문, 분류/클러스터링/재랭킹/STS). 표현 분석 데이터: WikiText-103. 증강: 단어쪼개기/문자랜덤/키보드 치환. |
| 주요 결과 | (1) 거의 모든 작업에서 ‘중간 레이어’가 마지막 레이어 대비 평균 2–16%p까지 향상 (2) 디코더(AR)는 중간층 엔트로피 ‘골(valley)’과 성능 피크가 일치 (3) BERT는 대체로 완만/균일, Mamba는 더 평평 (4) 모델이 클수록 중간 압축이 더 뚜렷 (5) CoT/수학 파인튜닝(Qwen2.5-Math)은 토큰 수준 엔트로피 유지↑(문맥 보존↑) (6) 잔차(residual)가 중간 압축 주도. |
| 추가 분석 | “극단 입력”: 반복 토큰↑ → 중간층 엔트로피↓(중복 압축), 랜덤 토큰↑ → 초반층 엔트로피↑(노이즈 민감), 길이↑ → 비정규화 엔트로피↑(정규화 시 아랫변동). 비전에서도 AR 이미지 트랜스포머(AIM)만 LLM과 유사한 중간 병목. |
| 기여 | (i) 중간 레이어 우수성 대규모·다아키텍처 검증 (ii) 엔트로피 중심의 통합 프레임워크로 “왜”를 설명 (iii) 훈련 단계/규모/CoT/서브레이어(잔차) 효과까지 체계적 해부 (iv) 비전 AR 모델로 범모달 일반성 시사. |
| 한계 | 주로 영어 MTEB 기반 평가, 이론은 몇 가지 이상화 가정(등방 가우시안/정규화 등)에 의존, 1B급 전후 규모 중심·초대형 범위 제한, 실제 다운스트림 파인튜닝 비용-효율 트레이드오프는 추가 검증 필요. (논문 본문 및 부록의 설정에서 유추) |
| 실용 가이드 | 디코더형(AR) 임베딩: 중간 깊이(대략 40–70% 구간)를 1차 후보로, 엔트로피/곡률/InfoNCE·LiDAR로 레이어 선택. CoT/수학 데이터 파인튜닝은 문맥 보존(엔트로피 유지)에 유리. 잔차 처리 단계별(프리/포스트) 엔트로피 확인으로 병목 지점 식별. |
방법론: 통합 프레임워크를 단계별로
- 표현 행렬과 Gram
배치의 토큰/문장 임베딩을 행렬 Z∈RN×DZ\in\mathbb{R}^{N\times D}로 모으고, Gram K=ZZ⊤K=ZZ^\top의 고유값 분포를 본다. 분포가 소수 성분에 치우치면 “강한 압축(낮은 엔트로피)”, 고르게 퍼지면 “정보 보존(높은 엔트로피)”. 이는 표현의 정보량·다양성·군집 구조를 하나의 수치(행렬 기반 엔트로피)로 읽게 해준다. - 세 범주·일곱 지표 (모두 Gram-entropy와 연결)
- 정보이론: 프롬프트 엔트로피(문장 내 토큰 다양성), 데이터셋 엔트로피(문장 간 분리도), 유효랭크(엔트로피의 하한).
- 기하: 곡률(토큰 궤적의 급회전 정도—지역/전역 특성 구분).
- 증강 불변성: InfoNCE(양/음쌍 대조), LiDAR(클래스 간/내 산포 비), DiME(쌍 고유성).
이들은 공히 ZZ⊤ZZ^\top의 고유값 스펙트럼으로 설명되며, “좋은 표현”은 (작업에 맞는 수준의) 높은 엔트로피·낮은 곡률·강한 불변성으로 수렴한다.
- 핵심 이론 연결고리(요지)
- 유효랭크 ≤ exp(엔트로피): 엔트로피가 크면 실질 차원도 크다.
- 프롬프트 엔트로피↑ ⇒ 데이터셋 엔트로피 스케일↑: 토큰 다양성이 전역 분리도를 밀어올림.
- InfoNCE 감소 ↔ I(X;Z) 증가 ≤ H(Z): 불변성 개선이 정보량/엔트로피 증가와 결부.
=> 결국 엔트로피가 정보보존·불변성·기하를 묶는 “공통 렌즈”.
실험 설계
- 모델: Pythia·LLaMA3(디코더, AR), BERT(인코더), Mamba(SSM), 그리고 LLM2Vec 변형. 스케일은 수천만~10억 파라미터대.
- 벤치마크: MTEB 32개 영문 태스크(분류/클러스터링/재랭킹/STS 등)에서 “각 레이어 출력을 임베딩으로” 사용해 평균 성능 비교.
- 표현 분석 코퍼스: WikiText-103로 레이어별 엔트로피·곡률·불변성 측정(학습 진행 단계별 체크포인트 포함).
- 증강: 단어 분할, 문자 삽입/치환/삭제/스왑, 키보드 이웃 치환 등 (NLPAug).
결과 (step-by-step 핵심 관찰)
- 중간 레이어가 마지막보다 강하다
32개 태스크 평균에서 중간층 임베딩이 최종층보다 2–16%p까지 우세. 아키텍처에 무관하게 반복적으로 관찰. 마지막 레이어는 사전학습 목적에 과적합된 특수화 경향. - 아키텍처별 패턴
- 디코더(AR): 중간에서 엔트로피 ‘골’(compression valley) + 성능 피크.
- BERT(양방향): 비교적 균일(강한 압축 필요성 낮음).
- Mamba(SSM): 곡선이 평탄.
=> 훈련 **목적(AR 여부)**가 병목 형성의 주요인.
- 스케일 업 효과
모델이 커질수록 **중간 압축(엔트로피 하강)**이 더 분명, 곡률↓(더 매끄러운 궤적), 불변성↑(LiDAR 등↑). 그래서 중간층 피크가 더 뚜렷. - 훈련 진행에 따른 변화
초기 전단(early) 레이어는 빨리 안정화, 중간 레이어가 학습 내내 가장 크게 변화(엔트로피 점진적 감소, 곡률 완화, 불변성 패턴 변화). “디토크나이제이션 가설”과 부합. - CoT/도메인 파인튜닝의 효과(Qwen2.5-Math)
체인-오브-쏘트 및 수학 중심 파인튜닝은 토큰 수준 엔트로피를 더 높게 유지(분산↓), 즉 문맥을 더 오래 보존 → 다단계 추론에 유리. - 서브레이어 해부: 잔차(residual)가 병목의 핵
어텐션/MLP 전-후를 나눠보면, 잔차가 합쳐지는 지점에서 엔트로피 급락 → 중간 압축 형성의 주역. - 극단 입력 조건
- 반복 토큰↑: 중간층 엔트로피 급감(중복 감지→압축).
- 무작위 토큰↑: 초반층 엔트로피 급등(노이즈 민감), 심층은 상대적으로 강인.
- 길이↑: 비정규화 엔트로피↑, 정규화하면 아랫변동(한 토큰의 추가 정보 기여는 체감).
- 비전으로의 일반화
비전 트랜스포머 다수(ViT/BEiT/DINOv2/MAE)는 깊이에 따라 성능·불변성↑(마지막층 최고). 반면 **AR 이미지 트랜스포머(AIM)**는 LLM과 동일한 ‘중간 병목+피크’ → AR 목적이 핵심 요인임을 재확인.
왜 그런가? (통합 해석)
- 중간 레이어 = 균형점: 정보 보존(엔트로피↑)과 잡음/국소 세부 제거(엔트로피↓) 사이에서 적정 압축을 달성. 이때 곡률은 완화(전역 구조), 불변성은 강화되어 다운스트림 선호 표현이 만들어짐.
- AR의 중간 병목: 좌→우 예측 제약이 중간에 비국소 정보를 압축하도록 유도, 말단에서는 목표 토큰 예측 특수화가 진행되어 일반 임베딩 성질이 약화.
- 잔차의 역할: 여러 경로가 합쳐지는 잔차 결합점에서 변동 성분 정규화/필터링이 강하게 일어나 ‘골’을 만든다.
실무 적용 가이드 (연구/개발 체크리스트)
- 레이어 선택(임베딩 전용화)
- 디코더형 LLM(예: Qwen, LLaMA 계열) → 중간(대략 40–70% 깊이) 레이어를 1차 후보.
- 후보 레이어 LL마다 프롬프트/데이터셋 엔트로피, 곡률, InfoNCE·LiDAR·DiME를 빠르게 측정해 ‘엔트로피 너무 낮지 않으면서, 곡률↓·불변성↑’ 지점을 고른다.
- 파인튜닝 전략
- CoT·수학/추론 데이터로 파인튜닝하면 **문맥 유지(엔트로피 유지)**에 도움이 되어 임베딩 강건화 가능.
- LLM2Vec류(양방향주의/추가 단계) 접근은 **불변성↑**를 보여줌.
- 모델 구조 힌트
- 중간 잔차 결합부가 병목 → 그 지점 전후를 임베딩 추출 포인트로 삼거나, 잔차/정규화 설정을 조절해 표현 품질 튜닝 여지.
- 데이터/증강
- 문자·타이핑 수준 증강으로 InfoNCE·LiDAR·DiME를 계산해 레이어 견고성 비교. (NLPAug류로 즉시 재현)
- 평가 프로토콜
- **MTEB(분류/클러스터링/재랭킹/STS)**와 내부 도메인 태스크를 혼합. 중간 레이어가 일관 우위인지, 과제별 최적 레이어가 다른지 파악.
데이터·학습·평가 세부 (재현용)
- 표현 분석 데이터: WikiText-103 (토큰 길이 필터 적용).
- 증강: 단어쪼개기, RandomChar, Keyboard(기본 하이퍼파라미터)로 2개 증강쌍 생성해 InfoNCE/LiDAR/DiME 산출.
- MTEB 32태스크: Pair/Classification/Clustering/Reranking/STS로 구성(모두 영문). 내부 표(Table 1) 참조.
그림(figure) 핵심 해설
- Fig. 1: 세 아키텍처에서 중간 레이어 평균 성능 피크(MTEB 32개 평균).
- Fig. 2/10: 프롬프트 엔트로피/곡률/LiDAR의 깊이별 변화—Pythia(AR)는 중간 골, BERT는 완만, Mamba는 평탄.
- Fig. 3/8/9: 표현 지표 vs 다운스트림 성능의 강한 상관—특히 DiME, 곡률, InfoNCE 유의.
- Fig. 4/11: 학습 단계별로 중간층 변화가 가장 큼, 초반층은 이른 안정.
- Fig. 5: Qwen2.5 vs Qwen2.5-Math—후자가 **토큰 엔트로피↑(분산↓)**로 문맥 유지.
- Fig. 6: 극단 입력에 대한 엔트로피 반응(반복/랜덤/길이).
- Fig. 14: 비전 모델—**AIM(AR)**만 LLM 유사 중간 병목.
- Fig. 15: 잔차 단계에서 엔트로피 급락(병목 형성 핵심).
기여와 한계
- 기여: (i) “중간 레이어 > 마지막 레이어”를 대규모·다아키텍처·다태스크로 체계 검증 (ii) 행렬 기반 엔트로피를 중심으로 정보압축-기하-불변성을 단일 이론 틀로 통합 (iii) 학습 진행/스케일/CoT/서브레이어 효과까지 정량 해부 (iv) 비전 AR로 일반성 확인.
- 한계: 실험은 영문 MTEB 중심, 이론은 등방 가우시안/정규화 등 이상화 가정 포함, 초대형(>10B) 범위 일반화는 미확인, 실전 파인튜닝-추론 비용 대비 이득은 추가 분석 필요.
좋은 질문! 핵심만 딱 잡아 간결·정확하게 풀어볼게.
1) Z와 Zᵀ(전치)·Gram 행렬, 고유값이 뭔가요?
- 문장(또는 토큰) 임베딩을 행으로 쌓아 만든 행렬을 Z∈RN×DZ\in\mathbb{R}^{N\times D}라고 하자(샘플 NN개, 차원 DD).
- Gram 행렬 KK는 K=ZZ⊤∈RN×NK=ZZ^\top\in\mathbb{R}^{N\times N} (샘플-샘플 유사도).
- KK의 고유값 λ1,…,λN\lambda_1,\dots,\lambda_N은 ZZ의 특이값 σi\sigma_i와 관계가 있어요:Z=U Σ V⊤⇒ZZ⊤=U Σ2 U⊤Z = U\,\Sigma\,V^\top \quad\Rightarrow\quad ZZ^\top = U\,\Sigma^2\,U^\top즉, K=ZZ⊤K=ZZ^\top의 고유값은 σi2\sigma_i^2 (나머지는 0).
해석: λi\lambda_i는 **표현의 분산이 쌓이는 주성분 방향(모드)**의 “크기”를 뜻해요. 몇 개의 큰 λi\lambda_i가 대부분의 분산을 먹고 있다면, 표현이 소수의 방향으로 압축되어 있다는 뜻.
2) “소수 성분에 치우친 분포 ⇒ 낮은 엔트로피”인 이유
엔트로피는 원래 **확률분포의 “퍼짐도(불확실성)”**를 재는 척도예요.
행렬의 경우, 고유값을 정규화된 분포로 바꿔서 엔트로피를 계산합니다:
pi = λi∑jλj ,H = −∑ipilogpip_i \;=\; \frac{\lambda_i}{\sum_j \lambda_j}\,,\qquad H \;=\; -\sum_i p_i \log p_i
- 균일할수록(예: pi=1/rp_i=1/r가 rr개) HH가 최대 (→ 여러 방향에 고르게 퍼짐, 정보 다양성↑).
- 한 곳에 몰릴수록(예: p=[1,0,0,… ]p=[1,0,0,\dots]) HH가 최소 (→ 거의 한 방향으로만 표현, 정보 다양성↓).
즉, “고유값 분포가 소수(몇 개) 성분에 치우친다” = “정규화 분포 pp가 뾰족하다” = “엔트로피가 낮다”.
보너스: 유효랭크(effective rank) reff=exp(H)r_{\text{eff}}=\exp(H).
균일 pp이면 reff≈r_{\text{eff}}\approx 그 균일 성분 수(실질 차원), 뾰족하면 1에 가까워져요(거의 랭크-1).
3) 장난감 예시(직관 고정)
- Case A: 한 방향에 몰림(압축)Z=[1010],K=ZZ⊤=[1111]Z=\begin{bmatrix}1&0\\[2pt]1&0\end{bmatrix},\quad K=ZZ^\top=\begin{bmatrix}1&1\\[2pt]1&1\end{bmatrix}KK의 고유값은 [2, 0][2,\,0]. 정규화하면 p=[1, 0]p=[1,\,0] → H=0H=0, reff=1r_{\text{eff}}=1.
직관: 두 샘플 임베딩이 사실상 같은 방향 → “정보가 한 축에 몰림”. - Case B: 두 방향에 고르게 퍼짐Z=[1001],K=I=[1001]Z=\begin{bmatrix}1&0\\[2pt]0&1\end{bmatrix},\quad K=I=\begin{bmatrix}1&0\\[2pt]0&1\end{bmatrix}고유값 [1, 1][1,\,1], 정규화 p=[0.5, 0.5]p=[0.5,\,0.5] → H=log2H=\log 2, reff=2r_{\text{eff}}=2.
직관: 두 샘플이 서로 다른 방향으로 충분히 분리 → “여러 모드에 분산”.
4) 왜 이것이 “압축 vs 정보보존”과 연결되나?
- 고유값(=분산 모드)의 소수 지배 → 표현이 저차원 아공간에 눌려 있음(압축·특수화).
- 고유값이 고르게 → 다양한 방향의 변이가 살아 있음(정보 보존·일반성).
- 그래서 논문은 중간 레이어에서 고유값 분포가 “너무 뾰족하지도, 너무 평평하지도 않은” 균형점을 자주 보이며, 이때의 엔트로피(및 관련 지표들)가 다운스트림 성능과 잘 맞물린다고 보는 거예요.
5) 실무 계산 체크리스트(간단)
- 배치로 임베딩 모아 ZZ 생성(행=샘플).
- K=ZZ⊤K=ZZ^\top 계산(필요하면 평균 제거·정규화 일관성 유지).
- λi\lambda_i 고유값 계산 → pi=λi/∑λip_i=\lambda_i/\sum \lambda_i.
- H=−∑pilogpiH=-\sum p_i\log p_i, reff=exp(H)r_{\text{eff}}=\exp(H).
- 레이어별 HH, reffr_{\text{eff}} 추세를 보고 **너무 뾰족(압축 과도)**도, **너무 평평(잡음 과다)**도 아닌 지점(보통 디코더 LLM은 중간 구간)을 후보로 삼아요.
요약 한줄:
K=ZZ⊤K=ZZ^\top의 고유값은 표현이 퍼져 있는 “방향별 분산”이고, 그 분포를 확률처럼 정규화해 계산한 엔트로피가 “퍼짐도”를 말해준다—몇 개 큰 고유값에 몰리면(뾰족) 엔트로피가 낮고, 고르게 퍼지면 높다.
좋아. 업로드한 논문 **“Layer by Layer: Uncovering Hidden Representations in Language Models”**의 방법론을, 실제 재현 관점에서 단계별로 풀고(간단 예시 포함), 타당성·한계·기여를 명확히 정리해줄게. 핵심 메시지는 “마지막 레이어가 아니라 중간 레이어 임베딩이 더 좋은 표현을 주는 경우가 광범위하게 관찰되며, 이를 정보이론·기하·증강 불변성 관점의 단일 프레임워크로 설명”했다는 점이야.
한눈에 보는 표 (문제·방법·실험·결과·기여·한계)
구분 정리| 문제 상황 | “최종 레이어가 항상 최선인가?”에 대한 검증. 다양한 아키텍처(트랜스포머, SSM, BERT)와 대규모 다운스트림(32개 MTEB 임베딩 태스크)에서 레이어별 임베딩 품질을 비교한다. |
| 핵심 방법(프레임워크) | 표현행렬 ZZ의 Gram ZZ⊤ZZ^\top을 공통 렌즈로 삼아, (A) 정보이론: 프롬프트/데이터셋 엔트로피·유효랭크, (B) 기하: 곡률, (C) 불변성: InfoNCE·LiDAR·DiME 를 단일 틀에서 연결해 레이어별 품질을 수치화. |
| 이론 연결 | (i) 유효랭크 ≤ exp(엔트로피) (Theorem 1), (ii) 프롬프트 엔트로피↑ ⇒ 데이터셋 엔트로피 스케일↑ (Theorem 2), (iii) log N − InfoNCE ≤ I(X;Z) ≤ H(Z) (Theorem 3). → 세 범주의 지표가 모두 Gram 분산 분포(엔트로피)와 연결. |
| 실험 설계 | 모델: Pythia(AR 트랜스포머), BERT(인코더), Mamba(SSM) 등; 태스크: MTEB 32개. 추가로 Llama3-8B의 LLM2Vec 파인튜닝 효과, CoT 파인튜닝(Qwen2.5-Math), 서브레이어(잔차 등) 기여, 스케일링(14M~1B), **비전(특히 AIM)**까지 분석. |
| 주요 결과 | (1) 중간 레이어 > 최종 레이어: MTEB 평균 성능에서 중간층이 종종 최대 +16%p 향상. (2) AR 목적이 **중간 병목(compression valley)**의 주원인. (3) 잔차 결합이 중간 압축을 주도. (4) **스케일↑**일수록 병목이 더 분명. (5) CoT 파인튜닝은 토큰 엔트로피를 높게 유지(문맥 보존). (6) 극단 입력(반복/랜덤/길이)에 대한 층별 엔트로피 반응 패턴 제시. |
| 기여 | 단일 프레임워크로 정보압축·기하·불변성을 연결하여 중간층 우수성의 이유를 제시하고, **아키텍처/도메인 일반성(언어↔비전 AIM)**을 보였다. 현업에선 중간층 임베딩의 전략적 사용을 권장. |
| 한계 | (i) 프레임워크는 이상화된 가정(엔트로피 기반)과 선택된 벤치마크에 의존, (ii) 주요 비교는 영어 MTEB 기반, (iii) 초거대(>10B) 전범위 일반화·실전 비용-효율 트레이드오프는 별도 검증 필요, (iv) 프리프린트 상태. |
방법론을 “재현 가능한 단계”로 설명
Step 1) 레이어별 표현 수집과 Gram 엔트로피
- 각 레이어 ll에서 문장/토큰 임베딩을 모아 Zl∈RN×DZ_l \in \mathbb{R}^{N\times D}를 만들고, Gram Kl=ZlZl⊤K_l=Z_l Z_l^\top의 고유값 스펙트럼으로 행렬 기반 엔트로피 H(Zl)H(Z_l)를 계산한다. 이 엔트로피는 표현의 분산이 얼마나 소수 모드에 집중(압축) 혹은 **고르게 분산(정보 보존)**되는지 요약한다. 유효랭크는 H(Zl)H(Z_l)의 하한으로 연결된다(Thm.1).
(작은 예시)
- 문장 A: “서울의 날씨는 맑다.”, 증강 A′(오탈자/치환), 문장 B 및 B′에 대해 레이어 ll의 문장 임베딩을 쌓아 Zl=[z(A),z(A′),z(B),z(B′)]Z_l=[z(A),z(A′),z(B),z(B′)].
- KlK_l의 엔트로피가 높으면 A/A′, B/B′가 서로 잘 구분되면서도 각 쌍은 가깝게 유지되는(불변성↑) 경향을 뜻한다. 이후 Step 3의 불변성 지표와 결합된다. (이 직관은 Thm.1–3의 연결로 정당화됨.)
Step 2) 정보이론 렌즈: 프롬프트/데이터셋 엔트로피 & 유효랭크
- 프롬프트 엔트로피: 한 문장 내부의 토큰 표현 다양성(토큰-레벨).
- 데이터셋 엔트로피: 문장 간 분산(문장-레벨).
- 이 둘은 스케일링 관계를 가지며(프롬프트 다양성↑ ⇒ 데이터셋 엔트로피 증가율↑), 유효랭크는 엔트로피의 함수로 하한을 이룬다(Thm.1–2).
Step 3) 불변성 렌즈: InfoNCE · LiDAR · DiME
- InfoNCE: 증강 쌍(양성)과 타 샘플(음성)을 대조해 정합성을 측정. **log N − InfoNCE ≤ I(X;Z) ≤ H(Z)**로, **InfoNCE↓**는 **표현 엔트로피·상호정보량↑**와 연결됨(Thm.3).
- LiDAR: 각 프롬프트를 “자기 클래스”로 보고, 증강쌍이 클래스 내/클래스 간 산포비에서 응집되는 정도를 측정(선형 판별 기반).
- DiME: 행렬 엔트로피 기반의 쌍 고유성 측정—올바른 증강쌍 vs 랜덤쌍의 구분 가능성.
Step 4) 기하 렌즈: 곡률(curvature)
- 토큰 임베딩 궤적의 급회전/휘어짐을 본다. 저자들은 곡률·DiME·InfoNCE가 다운스트림 성능과 높은 상관을 보인다고 요약한다.
Step 5) 레이어 전 구간 평가 및 비교(다운스트림)
- Pythia, BERT, Mamba 등에서 모든 레이어 출력을 임베딩으로 사용해 MTEB 32개 태스크 평균을 비교. **중간 레이어가 최종 레이어를 자주 능가(최대 +16%p)**하며, 그림 1로 개괄된다.
Step 6) 통합 해석: 왜 “중간”인가?
- AR(오토리그레시브) 목적은 **중간층에서 정보 병목(엔트로피 골)**을 유도—언어뿐 아니라 **AR 이미지 트랜스포머(AIM)**에서도 동일 패턴이 재현되어 목표 함수가 핵심 요인임을 보여준다.
- 잔차(residual) 결합부가 중간 압축을 주도: 잔차 전 단계는 압축이 약하지만, 잔차 합류 직후 엔트로피 급락이 나타난다(그림 15).
- 스케일링: 모델이 클수록 중간 압축(엔트로피 딥)·곡률 완화·**불변성↑**가 더 뚜렷 → 중간층 성능 피크가 강화.
- 파인튜닝 효과: (i) LLM2Vec류는 증강 불변성↑, (ii) **CoT 파인튜닝(Qwen2.5-Math)**은 토큰 엔트로피를 높게 유지(분산↓) → 길게 문맥을 품는다.
- 극단 입력: 토큰 반복↑ ⇒ 중간층 엔트로피↓, 랜덤성↑ ⇒ 초반층 엔트로피↑, 길이↑ ⇒ 비정규화 엔트로피↑(길이 효과).
(작동 예시) 한 레이어에서 불변성·엔트로피 측정 흐름
- 프롬프트 pp와 증강 p+p^+를 만들고(철자 치환/키보드 인접 치환 등), 미니배치로 ZlZ_l 계산.
- InfoNCE로 p↔p+p\leftrightarrow p^+ 정합성 계산(음성은 배치의 타 샘플).
- LiDAR는 각 pp를 클래스 취급해 군집 응집도/분리도 비율 산출.
- DiME는 진짜쌍 vs 랜덤쌍의 “고유성” 비교.
- 동시에 Kl=ZlZl⊤K_l=Z_lZ_l^\top의 엔트로피 H(Zl)H(Z_l)·유효랭크를 구해 (InfoNCE·LiDAR·DiME) ↔ H(Z_l) 관계를 본다(Thm.3).
타당성(검증 근거)
- 대상·범위의 폭: 트랜스포머(AR)·BERT(양방향)·Mamba(SSM) 등 이기종 아키텍처와 MTEB 32 태스크로 레이어 전 구간을 체계적으로 비교. 결과는 중간층 우수성의 일관된 경향을 보여준다.
- 이론적 정당화: 엔트로피–유효랭크–상호정보/InfoNCE의 명시적 부등식으로 프레임워크가 서로 정합됨(Thm.1–3).
- 원인 분석의 분해: 잔차 결합이 중간 압축을 만든다는 서브레이어 수준의 측정으로 기전을 제시.
- 일반화 단서: 스케일링·파인튜닝(CoT, LLM2Vec)·**비전(AIM)**까지 확장해 관찰된 패턴의 강건성을 확인.
한계(주의점)
- 벤치마크 의존성: 핵심 비교는 MTEB(영문) 기반. 한국어·특수 도메인에의 일반화는 추가 검증 필요. (저자들도 일반적 결론을 제시하지만, 정확한 수치는 벤치마크/증강 설계에 민감할 수 있음.)
- 이상화 가정: 엔트로피/랭크·InfoNCE 사이의 연결은 특정 조건하에서의 부등식·스케일링 논의에 근거(증명은 부록). 실제 데이터 분포에서의 편차 가능.
- 초거대 모델·실전 비용: 10B+ 초대형 전 범위 검증, 임베딩 추출·추론 비용 대비 이득(레이어 절단/교체)의 산업적 최적화는 범위 밖.
- 프리프린트: 동료평가 전 단계.
기여(명확화)
- 중간 레이어 우수성의 광범위 검증(최대 +16%p)과 그 **원인(AR 목적·잔차 결합)**의 계통적 해부.
- 정보이론–기하–불변성을 Gram 엔트로피로 묶은 단일 프레임워크와 이론 연결(Thm.1–3).
- 일반성: 언어(LLM)뿐 아니라 **AR 비전(AIM)**에도 동일 패턴 확인 → **목표 함수(AR)**가 병목을 유도.
- 실무 지침: 중간층 임베딩의 전략적 활용을 권장(모델 해석성·강건성·효율성에 함의).
당신의 연구/개발에 바로 적용(체크리스트)
- 레이어 선택: 디코더형(AR) LLM이라면 전체 깊이의 40–70% 구간에서 후보 레이어를 고르고, 각 후보에 대해 H(Z), 유효랭크, 곡률, InfoNCE/LiDAR/DiME를 빠르게 측정해 최종 선택. (이론상 지표들이 일관된 방향성을 가짐)
- CoT/도메인 파인튜닝: 토큰 엔트로피를 높게 유지시켜 문맥 보존을 돕는 경향—중간층 임베딩의 추론 태스크 성능에 유리.
- 서브레이어 탐색: 잔차 결합 직전/직후에서 임베딩 추출을 비교해 “중간 병목” 포인트를 식별.
- 스케일/비전: 모델을 키우거나(스케일↑), **AR 비전(AIM)**에서도 같은 지침이 통한다는 근거 확보.
한줄 요약
중간 레이어는 정보 보존(엔트로피), 기하적 매끄러움(곡률↓), 증강 불변성(InfoNCE·LiDAR·DiME) 사이의 균형점을 이뤄, 다운스트림에서 최종 레이어를 자주 능가한다—특히 오토리그레시브 목적과 잔차 결합이 그 병목을 만든다.
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge (0) | 2025.09.12 |
|---|---|
| An Empirical Study of Clinical Note Generation from Doctor-Patient Encounters (2) | 2025.09.11 |
| Language Model 파라미터 감소(Pruning) 논문 5 (1) | 2025.09.03 |
| Language Model 파라미터 감소(Pruning) 논문 4 (0) | 2025.09.02 |
| Language Model 파라미터 감소(Pruning) 논문 3 (6) | 2025.09.02 |

