Uncertainty estimation 관련 논문 정리

인공지능/논문 리뷰 or 진행

Uncertainty estimation 관련 논문 정리 - 2

이게될까 2025. 5. 15. 15:38

728x90

Transformer Uncertainty Estimation with Hierarchical Stochastic Attention

Transformers are state-of-the-art in a wide range of NLP tasks and have also been applied to many real-world products. Understanding the reliability and certainty of transformer model predictions is crucial for building trustable machine learning applicati

arxiv.org

이 논문은 기존 transformer구조가 Uncertainty 측정이 불가능하다고 주장하며 새로운 구조를 주장합니다.

logit만으론 어떻게 할 수 없다는 주장입니다.

새로운 구조로 바꾸는데 이렇게 되면 학습이 다시 필요해서....

대충 그렇구나 하고 넘기겠습니다.

🧩 문제 정의	기존 Transformer는 deterministic하여 예측 결과의 불확실성(uncertainty) 을 측정할 수 없음 → 신뢰성 부족 (의료, 금융, OOD 대응 등 문제 발생)
🎯 해결 목표	Transformer의 Self-Attention 구조를 확률적(stochastic) 으로 변형하여, 예측 신뢰도를 정량화할 수 있는 방법 제안
🛠 제안 방법론	Hierarchical Stochastic Self-Attention (H-STO-TRANS) 1. Value Attention: 기존 Softmax 대신 Gumbel-Softmax 사용 2. Centroid Attention: key vector가 learnable centroids에 확률적으로 attend 하도록 설계 → 2단계 확률적 Attention 구조
🧪 핵심 수식 구조	① a_c ∼ Gumbel(k·Cᵀ / τ₁) → k̂ = a_c·C ② a_v ∼ Gumbel(q·k̂ᵀ / τ₂) → h = a_v·V → key와 value 모두 확률화
🧠 이론적 기여	- Gumbel-Softmax 기반 attention은 Softmax처럼 Lipschitz 연속 - attention approximation의 오차 상한(bound) 을 수학적으로 증명함
🔬 실험 설정	- Task: Sentiment Analysis (IMDB, CR), Linguistic Acceptability (CoLA) - Baselines: TRANS, MC-Dropout, Ensemble, STO-TRANS
📊 주요 결과	- IMDB/CR: H-STO-TRANS가 ID/OOD 모두 가장 뛰어난 accuracy-uncertainty trade-off - CoLA: STO-TRANS는 ID 성능은 높으나 OOD 성능 불안정 → H-STO-TRANS가 안정적
💡 인사이트	- 확률적 attention이 불확실성 추정에 효과적임 - 특히 Centroid 기반 계층적 구조는 단일 value attention보다 훨씬 더 신뢰도 높은 예측 가능
✅ 주요 기여	1. Transformer에 stochastic self-attention 도입하여 uncertainty estimation 가능 2. Gumbel-Softmax + centroid attention이라는 단순하면서 효과적인 구조 제안 3. 기존 방법들 대비 파라미터 증가 거의 없음, 계산 효율 우수 4. ID 성능 유지 + OOD에서 높은 불확실성이라는 trade-off 성공적으로 달성
⚠ 한계점	- τ (temperature) 하이퍼파라미터에 민감 → 잘못 설정하면 성능 저하 - centroid 수, 초기화 방식에 따라 결과 편차 가능 - inference 시 multi-sample 필요 → 실시간 적용은 부담 가능
🧾 결론	기존 Transformer 한계를 극복하고 "불확실성 추정 가능한 Transformer" 구현. 단순하고 계산 효율적이며, 다양한 실제 응용에 적합한 방식 제안

https://www.semanticscholar.org/paper/Efficient-Uncertainty-Quantification-for-Multilabel-Yu-Cristea/98829789de1b9629db0bc154e51df75f544d77fa

www.semanticscholar.org

https://ieeexplore.ieee.org/document/9892871

Efficient Uncertainty Quantification for Multilabel Text Classification

Despite rapid advances of modern artificial intelligence (AI), there is a growing concern regarding its capacity to be explainable, transparent, and accountable. One crucial step towards such AI systems involves reliable and efficient uncertainty quantific

ieeexplore.ieee.org

기존 Bayesian으로 uncertainty를 측정하는 방법은 리소스가 너무 많이 든다.

용어	의미	구조 설명
DL (Deep Learning)	전통적인 딥러닝	입력 → 고정된 파라미터를 가진 신경망 → 출력 Y 모델 파라미터는 고정된 값으로 학습됨
BDL (Bayesian Deep Learning)	베이지안 딥러닝	입력 → 확률분포를 가지는 파라미터들 (e.g., Weight가 확률변수) → 출력 Y 모델 자체가 불확실성을 표현
DBL (Deep Bayesian Learning)	딥 베이지안 러닝	입력 → 인코더를 통해 잠재 변수 Z 분포 추론 → Z → 디코더로 출력 Z에 대해 posterior 분포를 추론하며, 전체 모델이 생성 모델(generative model)로 동작

모델 안에 모델을 하나 끼워 넣어서 분포를 확인하여 Uncertainty를 측정하네요

🎯 연구 목표	텍스트 분류에서 정확하고 빠른 불확실성 추정 방법 제안 (Epistemic + Aleatoric)
⚙️ 주요 문제점	기존 방법 (특히 MCD)은 추론 시간이 너무 길고 실시간 시스템에 부적합
🧠 제안 방법	① Epistemic Uncertainty: CVAE(Conditional VAE) 기반 ② Aleatoric Uncertainty: 예측 출력에 Gaussian 분포 부여 ③ Entropy 기반 정량적 불확실성 추정
🧪 실험 환경	- 데이터셋: AG News, DBPedia, Yelp-P - 모델: LSTM, CNN, Transformer - 평가지표: Macro-F1, Entropy
📈 주요 결과	🔹 CVAE가 MCD보다 최대 45배 빠름 🔹 성능(F1)은 동등하거나 소폭 우수 🔹 불확실성(Entropy)은 유의미하게 낮음 🔹 Aleatoric uncertainty는 문장의 애매함을 잘 반영
🌟 주요 기여점	✅ CVAE 기반 Epistemic 추정 도입 ✅ Aleatoric noise도 정량화 가능 ✅ LSTM/CNN/Transformer에 모두 적용 가능 ✅ 성능과 속도 모두 확보한 실용적인 불확실성 추정 프레임워크
📍 인사이트	- MCD 없이도 효율적이고 정확한 불확실성 추정 가능 - Entropy를 활용한 정량적 평가가 효과적 - 불확실성 정보는 실용적 필터링 및 Active Learning에 활용 가능
⚠️ 한계점	🔸 CVAE 학습 시 posterior collapse 위험 존재 🔸 일부 Transformer task에서 MCD보다 성능 낮은 경우 존재 🔸 불확실성 추정은 downstream에 활용되지는 않음 (분류만 평가)
🧩 향후 연구 방향	- 다양한 NLP task로 확장 (QA, 요약 등) - 불확실성 기반 decision system 적용 (e.g., active learning, filtering) - posterior 활용한 semi-supervised learning 등과의 결합

https://arxiv.org/abs/2302.09664

Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation

We introduce a method to measure uncertainty in large language models. For tasks like question answering, it is essential to know when we can trust the natural language outputs of foundation models. We show that measuring uncertainty in natural language is

arxiv.org

이전에 봤던 논문 중 하나네요

의미 기준으로 합쳐서 (Semantic equivalenve) Uncertainty를 측정합니다.

Semantic likehood를 통해 동일한 응답은 합치고, 그를 통해 엔트로피가 감소되는 것을 볼 수 있다.

entailment 조건을 통해 클러스터링을 하고, Uncertainty를 진행하여 좀 더 명확하게 구분하는 모습을 보인다.

이 방식은 생성을 끝까지 다 해야 한다는 문제점도 있네요

제안 배경	기존 NLG 모델의 불확실성 추정은 token 단위 확률에만 의존 → 의미가 같아도 표현이 다르면 "불확실"로 간주하는 문제가 있음
핵심 문제	자연어는 의미가 동일하지만 표현이 다양한 특성(semantic equivalence)이 존재 → token-level entropy는 부정확
제안 기법	Semantic Entropy: 의미가 같은 응답을 클러스터링한 뒤, 의미 단위로 확률을 합산하여 entropy 계산
방법론 구조	① 모델 응답 M개 샘플링 ② NLI 기반 쌍방향 entailment로 의미 클러스터링 ③ 클러스터 확률 기반 entropy 계산
실험 환경	- 모델: OPT 2.7B ~ 30B - 데이터: TriviaQA (closed-book), CoQA (open-book) - 평가: AUROC (정답/오답 구분 성능)
성능 결과	Semantic Entropy는 다른 모든 baseline(p(True), token entropy 등) 대비 AUROC 가장 높음 TriviaQA: 0.83, CoQA: 0.77
비교 대상	- Predictive Entropy (기존 방식) - Length-Normalized Entropy - Lexical Similarity - p(True) self-evaluation 방식
핵심 인사이트	- 정답일수록 의미가 유사한 응답이 많고(적은 불확실성), 오답일수록 응답 간 의미 다양성이 큼 - 의미 단위로 entropy를 재정의하면 더 정확한 불확실성 추정 가능
기여점	✅ 의미 기반 불확실성 최초 정식화 ✅ zero-shot 방식으로 기존 모델에 바로 적용 가능 ✅ token-level 한계를 보완 ✅ 간단한 구조로 재현 용이
한계점	⚠️ NLI 기반 클러스터링은 O(M²) 연산으로 비용 존재 ⚠️ 의미 판단 정확도는 NLI 모델 성능에 의존 ⚠️ 고온 샘플링 시 무의미 응답 생겨 성능 저하
활용 가능성	- QA 응답 신뢰도 평가 - Hallucination 탐지 - 의료/법률 QA 시스템의 안전성 확보 - 불확실성 기반 응답 필터링
후속 연구 방향	- 요약, 번역 등 긴 텍스트 태스크로 확장 - 의미 불확실성 + mutual information 조합 - keyword 중심 불확실성 가중치 부여 방식 탐색

https://arxiv.org/abs/2006.10108

Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness

Bayesian neural networks (BNN) and deep ensembles are principled approaches to estimate the predictive uncertainty of a deep learning model. However their practicality in real-time, industrial-scale applications are limited due to their heavy memory and in

arxiv.org

https://arxiv.org/abs/2503.15801

Disentangling Uncertainties by Learning Compressed Data Representation

We study aleatoric and epistemic uncertainty estimation in a learned regressive system dynamics model. Disentangling aleatoric uncertainty (the inherent randomness of the system) from epistemic uncertainty (the lack of data) is crucial for downstream tasks

arxiv.org

이 두 논문은 NLP에 적용하기 어려운 방법이라 링크만....

https://arxiv.org/abs/2403.02509

SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models

In recent years, large language models (LLMs) have become increasingly prevalent, offering remarkable text generation capabilities. However, a pressing challenge is their tendency to make confidently wrong predictions, highlighting the critical need for un

arxiv.org

AU와 EU 모두를 측정하기 위해 모델 입력에 다양한 영향을 줍니다.

결국 모델 내부를 확인하는 것이 아닌 block box 모델도 가능하게 sampling 기법이네요

근데 동일한 의미를 가지는 문구를 GPT 통해서 만들면 리소스 사용이 너무 큰 것 아닌가 싶기도 하고....

출력을 유사도 기반으로 점수를 만들고, 출력 기반으로 불확실성 측정을 해서 점수 만드네요 ....

🧠 문제의식	LLM은 종종 confidently wrong한 응답을 하며, 기존 UQ 방법은 aleatoric uncertainty 중심으로 epistemic 측정에 한계가 있음
🎯 목표	Epistemic + Aleatoric uncertainty를 모두 고려한 신뢰도 기반 응답 정량화 방법 제안
🛠️ 핵심 방법론 (SPUQ)	① 입력 perturbation (epistemic) ② 샘플링 기반 응답 생성 (aleatoric) ③ Aggregation으로 confidence score 계산
🔧 Perturbation 종류	- Paraphrasing (의미 보존한 질문 재작성) - Dummy tokens (?, \n 등 삽입) - System message 변경 (“helpful” → “friendly”) - Sampling temperature 변경
🧮 Aggregation 방식	🔹 Inter-sample: 출력 간 유사도 (Rouge-L, BERTScore 등) 🔹 Intra-sample: LLM의 self-reported confidence 또는 log-likelihood
📈 결과 요약	🔹 평균 ECE 50% 감소 🔹 가장 효과적인 조합: Paraphrasing + Rouge-L 기반 Inter-sample 🔹 Confidence-Accuracy correlation도 향상됨
📊 적용 모델	GPT-3, ChatGPT, GPT-4, PaLM2, PaLM2-Chat (총 5개 LLM)
🧪 적용 태스크	StrategyQA, BoolQ, CoQA, TruthfulQA, XSUM (QA 및 요약)
🧩 기여 요약	① LLM에 특화된 epistemic UQ 프레임워크 제안 ② 비침입적(black-box API friendly) 방법론 ③ 기존 “exact match” UQ를 semantic matching 기반으로 일반화 ④ 다양한 모델·태스크에서 일관된 ECE 감소 실현
⚠️ 한계점	- 샘플 수(k)만큼 계산량 증가 - 생성형/복잡한 프롬프트 대응 미흡 - System message perturbation은 간단한 형태에 한정 - GPT-3만 likelihood 기반 intra-sample 계산 가능
🔍 핵심 인사이트	❗ 작은 입력 변화에도 LLM 출력이 달라지면, 그 응답은 epistemic uncertainty가 높은 것 → SPUQ는 이를 잡아내어 overconfidence 문제 해결
✅ 한줄 요약	SPUQ는 입력 다양화를 통해 LLM이 자신 없는 영역을 드러내게 만들고, 이를 바탕으로 신뢰 가능한 confidence score를 산출하는 효과적인 불확실성 정량화 방법이다.

https://arxiv.org/abs/1802.10501

Predictive Uncertainty Estimation via Prior Networks

Estimating how uncertain an AI system is in its predictions is important to improve the safety of such systems. Uncertainty in predictive can result from uncertainty in model parameters, irreducible data uncertainty and uncertainty due to distributional mi

arxiv.org

이 논문도 NLP에 적용하긴 어려워서 이 정도만...

저자 / 소속	Natasa Tagasovska (HEC Lausanne), David Lopez-Paz (FAIR)
핵심 목표	✅ Aleatoric & Epistemic 불확실성을 단일 모델로 추정하는 효율적 방법 제안
기존 문제	🔻 기존 방식은 대부분 앙상블, 드롭아웃, 베이지안 추론 등 고비용, 복잡한 구조에 의존함
기여 요약	🔹 SQR (Simultaneous Quantile Regression): 데이터 노이즈 기반 Aleatoric uncertainty 추정 🔹 OCs (Orthonormal Certificates): Out-of-distribution 감지 기반 Epistemic uncertainty 추정 🔹 모두 Pre-trained 모델 기반으로 적용 가능하며, 단일 모델 구조 유지
📐 방법론 1: SQR	Simultaneous Quantile Regression으로 모든 quantile τ ∈ (0,1)을 한 번에 학습함 → Pinball loss를 τ ∼ U(0,1)으로 샘플링하여 학습 예측 구간: u_a(x) = f(x,1−α/2) − f(x,α/2) ➡ 다양한 노이즈 분포(이모달, 비대칭, 이분산)에 강인
🧭 방법론 2: OCs	Orthonormal Certificates은 훈련 데이터 feature space의 null-space 방향을 학습하여, 훈련 분포 외 입력에서 값이 커짐 정규화된 선형 certificate : u_e(x) = \|\|CTϕ(x)\|\|^2 ➡ 학습 데이터와 다른 입력(OOD)을 탐지 가능
💡 직관 예시	- SQR: 같은 증상(입력)을 가진 환자의 입원일 수가 다양함 → 여러 quantile로 예측 구간 생성 - OCs: MNIST 0~4로 학습된 모델이 7을 보자 높은 불확실성 출력
🔬 실험 결과 (Aleatoric)	📈 UCI 회귀 데이터셋 (8종)에서 예측 구간 PICP ≈ 0.95 유지 📉 평균 폭(MPIW)은 가장 좁음 → 기존 Gaussian, Dropout, Tree기반보다 더 안정적이고 좁은 예측 구간
🧪 실험 결과 (Epistemic)	🧠 CIFAR, MNIST, SVHN 등에서 5/5 클래스 분할 후 OOD 감지 🏆 OCs: 평균 ROC AUC ≈ 0.90 이상 → 단일 모델 중 최고 성능 (Dropout 앙상블보다 유사하거나 우수)
📊 평가 지표	- Aleatoric: PICP (Coverage), MPIW (Interval Width) - Epistemic: ROC AUC (in-domain vs. OOD)
📎 장점	✅ 단일 모델로 동작 ✅ 별도 재학습 없이 pre-trained 모델에 부착 가능 ✅ 다양한 노이즈, 다양한 입력 공간에 적용 가능 ✅ 이론적 안정성 보장 (concentration inequality)
⚠ 한계점	- Aleatoric & Epistemic 불확실성은 단위 다름 → 결합 어려움 - SQR의 다변량 출력, 분류 확장 필요 - OCs는 Feature Extractor의 품질에 민감
💡 활용 가능성	🎯 Active Learning 🧪 Adversarial Detection 🧠 Selective Prediction 📉 Causal Inference

https://arxiv.org/abs/2402.10189

LLM의 AU와 EU를 구분하려고 합니다.

여기선 input의 하이퍼 파라미터(디코딩 방식, temperature 등)에 따른 출력 변화를 확인하고, 이를 통해 EU를 확인한다.

그리고 example의 변화를 주고 AU를 확인합니다.

음.... 애매하네요

그래도 ICL에 따른 결과 차이를 보려고 했다는 점에서 점수를 줘야 할지...

문제 정의	In-Context Learning(ICL) 기반 LLM의 예측 불확실성이 어디서 오는지(AU vs EU)를 구분하지 못함. 신뢰성 있는 판단을 위해 불확실성의 정량적 분해 필요
핵심 아이디어	예측 불확실성 = AU(예시 기반 불확실성) + EU(모델 설정 기반 불확실성) 로 나누어 정보이론(Mutual Information) 기반 수식으로 정량화
추정 방법	① 다양한 예시 세트 (L개), 다양한 디코딩 (Θ) 적용 ② 토큰 확률 추출 → label 분포 matrix M 생성 ③ column-entropy 평균 = EU, 전체 entropy − EU = AU
Black-box 대응	Token prob이 없는 경우를 위해 분산 기반 분해법 (Total Variance Law)도 함께 제안
적용 모델	LLAMA-2 (7B, 13B, 70B), OPT-13B
적용 태스크	감정 분류(EMOTION, Financial, SST-2), 문법성(COLA), 토픽 분류(AG_News)
비교 기법	Likelihood, Entropy, Semantic Uncertainty (Kuhn et al., 2023 등)
정량적 결과	- AU/EU 모두 misclassification 탐지에서 AUPR, ROC 지표 가장 우수 - EU는 OOD, Semantic OOD 탐지에서 우수 - AU는 예시 품질 변화에 민감하게 반응
핵심 인사이트	✅ 예시는 Class-balanced 구성시 성능 향상 ✅ LLM 사이즈 증가 → EU/AU 감소 ✅ AU는 입력 품질, EU는 디코딩 구조에 의존 ✅ 기존 방법은 토큰 entropy만 고려해 AU/EU 분해 불가
한계점	❌ 생성형 태스크에는 적용 어려움 ❌ token 단위 불확실성 해석 불가능 ❌ 추론 비용 큼 (Beam Search × 예시 조합 반복)
기여	🔷 ICL 기반 불확실성 정량 분해를 최초 제안 🔷 Entropy & Variance 기반 양방향 추정법 구현 🔷 대형 LLM, 다양한 태스크에 적용된 범용성 있는 프레임워크 제시

저작자표시 비영리 (새창열림)

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Adversarial Attacks in NLP 관련 논문 정리 - 1 (1)	2025.05.16
Uncertainty estimation 관련 논문 정리 - 3 (1)	2025.05.16
Uncertainty estimation 관련 논문 정리 - 1 (2)	2025.05.15
L2M - Least-to-Most Prompting Enables Complex Reasoning in Large Language Models (2)	2025.05.13
Decomposed Prompting: A Modular Approach for Solving Complex Tasks (0)	2025.05.12

현재글Uncertainty estimation 관련 논문 정리 - 2

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

공대생 도전 일지