Uncertainty 논문 모아 보기 NAACL 2025 - 4
2025.05.03 - [인공지능/논문 리뷰 or 진행] - Planning 논문 모아 보기 NAACL 2025 - 3
Planning 논문 모아 보기 NAACL 2025 - 3
2025.05.02 - [인공지능/논문 리뷰 or 진행] - Agent, Hallucination 관련, Planning 논문 모아 보기 NAACL 2025 - 2 Agent, Hallucination 관련, Planning 논문 모아 보기 NACCL 2025 - 22025.05.01 - [인공지능/논문 리뷰 or 진행] - A
yoonschallenge.tistory.com
https://arxiv.org/abs/2503.17990
SUNAR: Semantic Uncertainty based Neighborhood Aware Retrieval for Complex QA
Complex question-answering (QA) systems face significant challenges in retrieving and reasoning over information that addresses multi-faceted queries. While large language models (LLMs) have advanced the reasoning capabilities of these systems, the bounded
arxiv.org
이 논문에선 Uncertainty 측정 방식을 같은 질문에 대해 동일한 정답을 출력하는지 클러스터링해서 군집 수가 많으면 높은 것으로 했네요
그래서 Uncertainty가 낮은 문서 집합들을 선택하는 것으로 안정적인 정답 생성을 유도했습니다.
연구 목적 | 복합 질의 응답(Complex QA)에서 초기 검색 단계의 낮은 Recall 문제 해결 → LLM이 정확한 정답을 생성할 수 있도록 의미적으로 유의미한 문서만 상위 랭킹 |
주요 문제점 | - Top-k 문서 검색 시 핵심 문서 누락 (Recall 부족) - Distractor 문서로 인해 LLM이 비일관된 정답 생성 - context window 제한으로 이후 단계에서 오류 복구 불가 |
핵심 아이디어 | ✅ LLM의 응답 일관성(semantic uncertainty)을 정량화하여 ⟶ 불확실한 문서를 제거하고 ✅ 문서 간 의미 유사성(graph 기반 이웃 탐색)을 통해 누락 문서를 복구 |
SUNAR 구성요소 | ① NAR (Neighborhood Aware Retrieval) → 의미 기반 문서 그래프에서 이웃 문서 확장 ② ASU (Answer Semantic Uncertainty) → LLM 응답의 의미 클러스터 수로 불확실성 정량화 ③ MER (Meta Evidence Reasoner) → 복수 sub-question의 reasoning 경로 통합 |
ASU 메커니즘 | - 같은 질문, 같은 문서셋으로 LLM 다중 응답 생성 - 의미 군집화 후 군집 수 s 측정 - 최종 문서 점수 = Original Score / s → 클러스터 수 많으면 불확실성 ↑ → 문서 점수 ↓ |
NAR 알고리즘 | - 문서 간 semantic k-NN 그래프 구축 - 초기 문서셋에서 의미 이웃 탐색 - LLM 피드백 (ASU)을 활용하여 batch 단위로 문서 scoring 및 filtering 반복 |
실험 데이터셋 | ① MuSiQue (MQA) ② 2WikiMultiHopQA (WQA) → 다단계 reasoning 필요, 복합 질의 환경에 적합 |
성능 지표 (Cover-EM) | - SELF-ASK (baseline) 대비 최대 +31.84% 향상 - SUNAR (MER + ASU) > SUNARR (NAR only) > Baseline |
LLM 일반화 성능 | GPT-4-mini, LLaMA3, Mistral 등 다양한 LLM에서도 ASU + NAR 조합이 일관된 성능 향상 입증 |
Ablation 결과 | - ASU 제거 시 성능 ↓ (불확실성 penalization 부재) - MER 제거 시 추론 통합 실패로 정확도 저하 |
기여 요약 | - LLM 응답의 의미적 불확실성을 정량화하는 Retrieval 조정 기법 제안 - 문서 간 그래프 기반 보완 검색 구조 제안 (NAR) - LLM 기반 메타 추론 통합기(MER)로 최종 정답 정확도 향상 |
한계 및 향후 연구 | - ASU는 경험적 heuristic (semantic set 수 기반) → 향후 conformal prediction 기반 confidence 추정 가능성 제시 - 이웃 확장 및 종료 조건 최적화 미비 |
핵심 인사이트 | ✅ "검색된 문서가 정답을 유도하는지"는 단순 유사도보다 LLM의 응답 일관성으로 평가해야 한다" ✅ Retrieval-Only 개선만으로도 End-to-End QA 성능을 근본적으로 개선 가능 |
https://aclanthology.org/2025.naacl-long.307/
UOREX: Towards Uncertainty-Aware Open Relation Extraction
Rebii Jamal, Mounir Ourekouch, Mohammed Erradi. Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2025.
aclanthology.org
여기선 Uncertainty를 작은 모델 하나 학습시켜서 구하네요..,,
문제 정의 | 기존 OpenRE 모델은 pseudo-label 기반으로 학습하여, 예측에 대해 지나치게 자신감(confidence)을 가짐 → 불확실성을 반영하지 못함, 이로 인해 실제로는 틀린 예측도 높은 confidence로 나와 지식 그래프에 오류 전파 위험 |
목표 | Epistemic Uncertainty (관계에 대한 지식 부족으로 인한 불확실성)을 모델링하여, 모델이 모르는 관계에 대해 낮은 confidence를 출력하게 만들어 오류를 줄이고 자기 신뢰도를 가지게 하는 OpenRE 시스템 구축 |
핵심 개념 | 🔹 Soft Clustering (Fuzzy C-means) 🔹 Relational Uncertainty 🔹 KL Divergence 기반 학습 🔹 Dual-Classifier 구조 (Discoverer + General Classifier) |
모델 구성 | Encoder: 문장 인코딩 (BERT) Projector: 클러스터링 가능한 공간으로 투영 Fuzzy C-means: unlabeled data에 대해 soft assignment 분포 생성 Discoverer: soft 분포를 따라 학습 (KL Loss) General Classifier: labeled data로 학습 + Discoverer output도 보조 학습 |
Uncertainty 처리 | 🔸 Fuzzy C-means로 soft label y_u^p 생성 (관계별 확률 분포) 🔸 Discoverer가 이를 KL divergence로 학습 → 확신이 낮은 예측에 대해 낮은 confidence 유지 🔸 Overall confidence로 모델이 잘못된 예측을 했는지 자기 평가(self-assessment) 가능 |
Loss 구성 | 🔹 Clustering Loss (L_Clust): 관계 중심에 모이도록 🔹 Collapse 방지 Loss (L_Col): 공간 붕괴 방지 🔹 Discoverer Loss (L_Disc): soft 분포와 예측 분포 정렬 🔹 General Classifier Loss (L_GC): 라벨 데이터 분류 + Discoverer 분포로 지식 전달 |
데이터셋 | TACRED (42개 관계 중 10개 unknown) FewRel (80개 관계 중 16개 unknown) |
평가 지표 | B3 F1, V-measure F1, ARI (클러스터 정렬 정확도) + Confidence threshold 기반 평가 (α=0~90%) |
주요 성능 | 🔸 α=90 기준 성능 (가장 신뢰 높은 예측만 평가): UOREX > KNoRD > RoCORE 순 → 예: TACRED B3-F1 기준 UOREX 0.98 (RoCORE 대비 +5.1%) → 확신이 높을수록 성능이 올라가는 정직한 모델 |
Self-assessment 실험 | 문장을 오염시켰을 때 UOREX만이 성능 저하에 따라 confidence도 함께 낮아짐 → 자기 성능 판단 가능 |
Active Learning 실험 | GPT-4o를 oracle로 사용해 confidence 낮은 10% 예측 재라벨링 후 학습 → UOREX는 가장 큰 성능 향상 (4.87%) → 잘못된 예측을 잘 골라냈기 때문 |
Ablation 결과 | 🔹 General Classifier 제거 시 성능 급락 (encoder space collapse) 🔹 Pretraining 제거 시 성능 붕괴 (학습되지 않은 projector 공간) 🔹 Soft Clustering 제거 시 uncertainty 학습 실패 (hard label처럼 동작) |
기여 요약 | ✅ Epistemic uncertainty 기반 OpenRE 설계 ✅ Confidence 기반 filtering 및 능동학습 성능 향상 ✅ 자기평가 가능한 모델 구축 ✅ 타 OpenRE 대비 압도적인 신뢰도 개선 |
한계점 | 🔸 관계 수가 적은 환경에서는 불확실성 모델링이 약화될 수 있음 🔸 BERT 기반 → 저자원 언어 적용에 제약 존재 |
후속 연구 방향 | 🔹 Bayesian Uncertainty로 불확실성 더 정교하게 모델링 🔹 저자원 언어로의 확장 🔹 실제 응용 시스템과의 통합 |
https://arxiv.org/abs/2407.02138
Efficient Nearest Neighbor based Uncertainty Estimation for Natural Language Processing Tasks
Trustworthiness in model predictions is crucial for safety-critical applications in the real world. However, deep neural networks often suffer from the issues of uncertainty estimation, such as miscalibration. In this study, we propose $k$-Nearest Neighbor
arxiv.org
이 논문은 train set을 통해 label이 붙은 embeddinng 공간을 가지고 있습니다. figure 1이 그 예시입니다.
이제 우리가 풀 test set에서 transformer의 중간 레이어에서 embedding을 추출하고, 그 embedding이 train set의 embedding 공간에서 knn을 통해 주변 label이 다양하거나, 너무 멀리 떨어져있다면 Uncertainty가 높다고 측정하네요
이건 단일 정답을 푸는는데 사용하는 것이라 제가 쓰긴 애매하긴 하지만 그래도 나쁘지 않은 방법입니다.
문제 정의 | 기존 Transformer 기반 모델은 예측 확신의 정도(uncertainty)를 과신하며, softmax 기반 confidence는 신뢰성 낮음 |
기존 방법 한계 | kNN-PL은 정확도는 높지만 • inference 시간이 느림 • 전체 train embedding 저장 필요 (메모리↑) • 학습 중 사용 불가 (post-hoc 전용) |
제안 방법: EKNN | ✅ Transformer 중간 레이어의 hidden representation 사용 ✅ 거리 기반 softmax weighting을 통한 confidence aggregation |
핵심 아이디어 | 🧠 Test 샘플과 semantic하게 유사한 train 샘플들의 label 분포를 기반으로 uncertainty 추정 → label이 집중되면 확신↑, 다양하면 불확실성↑ |
기술 구성 | • Cosine distance 기반 nearest neighbor 검색 • 중간 layer embedding 저장 및 indexing • neighbor label의 softmax-weighted vote로 confidence 계산 |
평가 태스크 | • Text Classification (SST-2, TREC 등) • NLI (SNLI, MNLI) • Open-domain QA (NQ, TriviaQA) |
평가지표 | • AUROC (uncertainty 판별 정확도) • ECE (calibration error) • FPR@95TPR (OOD 탐지 성능) |
주요 성과 | 🔺 AUROC ↑ (0.86 → 0.91) 🔻 ECE ↓ (7.2% → 4.5%) 🔻 FPR@95TPR ↓ (42% → 29%) ⏱ Inference 속도 baseline 수준까지 개선 |
장점 | ✅ 학습 중 불확실성 추정 가능 ✅ memory / 속도 효율적 ✅ 다양한 NLP 태스크에 적용 가능 ✅ SOTA 대비 높은 정확도와 calibration |
한계점 | ⚠ train representation 저장 공간 필요 ⚠ Transformer 구조 전제 ⚠ multi-label, continual learning setting에 제한 ⚠ 중간 layer 선택이 성능에 민감 |
연구 인사이트 | • 마지막 레이어보다 중간 레이어가 더 robust한 representation 제공 • distance-weighted voting이 uncertainty 추정의 품질을 극적으로 향상시킴 • post-hoc kNN 방식을 실시간 예측에도 활용 가능하게 개선 |
활용 가능 분야 | • OOD filtering • 안전한 예측 기반 시스템 (e.g., 의료, 금융) • active learning의 불확실성 기반 샘플 선택 |
https://arxiv.org/abs/2411.03497
Uncertainty Quantification for Clinical Outcome Predictions with (Large) Language Models
To facilitate healthcare delivery, language models (LMs) have significant potential for clinical prediction tasks using electronic health records (EHRs). However, in these high-stakes applications, unreliable decisions can result in high costs due to compr
arxiv.org
이 논문에서도 학습시켰네요....
https://aclanthology.org/2025.naacl-long.113/
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models
Artem Vazhentsev, Lyudmila Rvanova, Ivan Lazichny, Alexander Panchenko, Maxim Panov, Timothy Baldwin, Artem Shelmanov. Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Languag
aclanthology.org
📌 문제 정의 | LLM은 종종 잘못된 정보를 생성함 (hallucination). 이를 잡아낼 수 있는 정확하고 효율적인 uncertainty 측정 방법이 필요함 |
❗ 기존 한계 | 기존 불확실성 추정(UQ) 방법들 (Perplexity, Semantic Entropy 등)은 ① sampling/ensemble 기반으로 계산 비용 높음 ② sequence-level embedding만 활용해 정확도 낮음 |
🎯 핵심 아이디어 | 정답 응답들의 token-level 임베딩 분포와의 거리를 이용해 각 토큰의 불확실성을 계산하고, 이를 평균·회귀로 문장 수준 uncertainty score로 확장 |
🔍 주요 방법론 | ① Token-Level Mahalanobis Distance (ATMD) • 각 레이어별로 정답 임베딩 군집(μ, Σ) 생성 • test token과의 거리를 계산하여 불확실성 측정 ② Relative MD (ATRMD) • background 데이터셋(C4) 기준 분포와의 차이도 반영하여 domain shift 보정 ③ Supervised Linear Regression (SATMD, SATRMD) • 모든 레이어의 (A)TMD 값을 PCA → 선형 회귀 학습 • AlignScore 등 정답 점수를 타겟으로 학습하여 정밀 예측 ④ Hybrid Score (HUQ) • sequence probability와 SATRMD를 rank 기반으로 혼합하여 성능 향상 |
🧪 실험 설정 | - 11개 데이터셋 (XSum, CNN, SamSum, MedQUAD, TruthfulQA, SciQ, MMLU 등) - 3개 모델 (Llama 8B v3.1, Gemma 9B v2, Mistral 7B v0.1) - 두 task: Selective Generation, Claim-level Fact-checking - OOD 일반화 평가 포함 |
📊 주요 결과 | - 기존 UQ 방법 대비 전반적으로 우수한 PRR, ROC-AUC - SAT(R)MD + MSP: 거의 모든 task에서 최고 성능 - HUQ-SATRMD: OOD, Summarization에서 최고 - 계산 비용: 기존 SOTA 대비 95% 이상 절감 |
🧠 기술적 강점 | - Token 단위 불확실성으로 세밀한 감지 가능 - PCA + 회귀로 task-agnostic 대응 - RMD로 domain shift 보정 - 낮은 데이터 수 (200개)로도 학습 가능 |
⚠ 한계점 | - supervised 방식이라 labeled 응답 필요 - 대규모 모델(LLaMA 70B 등)에 대해 실험되지 않음 - embedding 추출을 위한 internal access 필요 |
🔮 향후 연구 방향 | - 일반화 성능 강화를 위한 robust centroid 추출법 - unlabeled data 기반 semi-supervised 방식 - 응답 내부 논리 불일치 감지를 위한 구조적 feature 확장 |