soft prompting 관련 논문 정리 1

인공지능/논문 리뷰 or 진행

soft prompting 관련 논문 정리 1

이게될까 2025. 7. 22. 20:07

728x90

SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings

Soft prompt tuning techniques have recently gained traction as an effective strategy for the parameter-efficient tuning of pretrained language models, particularly minimizing the required adjustment of model parameters. Despite their growing use, achieving

arxiv.org

🔍 문제 상황	- Soft Prompt Tuning은 Parameter-Efficient Tuning(PEFT)의 일종으로, 모델 파라미터를 고정한 채로 입력 embedding 앞에 학습 가능한 벡터(soft prompts)를 붙여 학습 - 하지만 다음과 같은 문제 존재: ① 작은 모델/작은 데이터셋에서 학습 불안정 ② convergence가 느림 ③ 초기화가 random이면 수렴 실패 가능 ④ 표현력 부족
🔑 기존 Soft Prompt 한계	- 초기화에 따라 성능 variance 큼 - 단순한 random vector는 학습 초기에 의미 정보 없음 - prompt token 수가 적어 표현력 제한
💡 제안 방법론	SuperPos-Prompt: - 사전 학습된 token embedding 들을 여러 개 샘플링(m=128)해 두고, 이를 가중합하여 soft prompt vector pi를 생성 - 각 soft prompt token은: p_i = ∑_{j=1}^m p'_{ij}⋅e_j - 가중치 p'_i는 학습 대상이고, embedding e_j는 전체 prompt에 공유됨 - 추가로 dropout 제거 시 학습 성능과 수렴 속도 증가
⚙️ 실험 설정	- 백본 모델: T5v1.1-Small / Base (LM-Adapted) - 데이터셋: GLUE + SuperGLUE (총 13개 task: QQP, MNLI, SST-2, CoLA 등) - Prompt 길이: 10개 - 학습 조건: 80 epochs, AdamW, No LR Scheduler - 비교 기법: Simple PT, Residual PT, ATTEMPT, Full Fine-tuning
📊 실험 결과 요약	- T5-Small 기준: Residual Prompt 대비 +6.4 향상 - T5-Base 기준: Residual Prompt 대비 +5.0 향상 - 일부 Task에서 Full Fine-tuning을 능가 - Dropout 제거 시 수렴 속도 및 성능 모두 향상 - 표준편차 기준으로 가장 안정적인 방법
🔬 Ablation	- m값(샘플링한 토큰 수)이 성능에 영향 → m = 128에서 성능 plateau - Softmax 적용 시 오히려 성능 하락 (가중합이 더 효과적임)
🧠 기여	① soft prompt를 의미 기반 구성으로 안정성 및 표현력 모두 개선 ② dropout 제거의 이점을 prompt tuning에 최초로 실험적으로 증명 ③ Residual/ATTEMPT보다 구조 간단, 학습 속도 빠름, 성능 우수 ④ 사전 훈련된 prompt 없이도 우수한 결과
⚠️ 한계	- 실험은 T5에 한정됨 (Decoder-only 구조는 실험 안됨) - 생성 task는 제외됨 (분류 task 위주) - 대규모 모델(수십억 파라미터급)은 미검증
🔮 향후 연구	- generation task로 확장 - multimodal 모델로 확장 - SuperPos + pretrained prompt 조합 가능성 탐색
🧷 한줄 요약	사전학습된 임베딩들의 선형 조합으로 soft prompt를 구성해, 표현력과 안정성을 함께 확보하는 경량화 prompt tuning 기법

https://arxiv.org/abs/2104.08691

The Power of Scale for Parameter-Efficient Prompt Tuning

In this work, we explore "prompt tuning", a simple yet effective mechanism for learning "soft prompts" to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned throug

arxiv.org

문제 상황	- 거대 언어 모델(LLM)은 downstream task마다 model tuning을 하면 • 막대한 파라미터 저장 비용 • 서빙 비효율성 발생 - GPT-3 식 prompt design은 • 성능 낮음 • 사람이 수동 설계 • 길이 제한 있어 한계
제안 방법 (Prompt Tuning)	- 전체 사전학습 모델(예: T5)은 완전히 동결 - task-specific하게 학습 가능한 soft prompt(embedding 벡터)를 입력 앞에 추가 - soft prompt만 학습, 본 모델은 고정된 채 사용 - 모든 task를 text-to-text로 변환하여 학습
방법론 상세	- soft prompt = 임베딩 벡터 Pe ∈ ℝ<p×e (p: 길이, e: 임베딩 차원) - input 임베딩과 soft prompt를 concat하여 모델 입력
실험 구성	✅ SuperGLUE 8개 task 단일 학습 ✅ Prompt length / init / pretrain 방식 / LM adaptation step에 대한 ablation ✅ Domain transfer (SQuAD → MRQA 등 OOD QA) ✅ QQP ↔ MRPC 도메인 이동 ✅ Prompt ensemble 실험
결과 요약	- 모델 크기 커질수록 성능 향상 극대화 → T5-XXL에서는 full model tuning과 성능 거의 동일 - GPT-3 175B보다 훨씬 적은 파라미터로 더 높은 성능 (prompt-tuned T5-Large 기준) - LM adaptation + class label init → 가장 안정적이고 좋은 성능 - 도메인 이동 실험에서도 full model tuning보다 성능 우수
기여	✅ LLM에 대해 가장 단순한 구조로도 prompt tuning만으로 high quality 달성 ✅ 다양한 design choice에 대한 정량적 ablation 분석 ✅ prompt ensemble로 효율적 성능 향상 가능 ✅ parameter efficiency & multi-task 서빙 실현 가능
한계 및 이슈	- Soft prompt는 특정 task 전용이라 다른 task에는 재사용 불가 - 해석 가능성이 낮음 (continuous space에서 의미 해석 어려움) - Span corruption만으로 pretrain된 모델은 prompt tuning과 상성이 좋지 않음 → 반드시 LM adaptation 필요
파라미터 효율성	- T5-XXL(11B)에 대해 soft prompt 100개 token 사용 시 → trainable param = 전체의 0.0037% → 20,000배 이상 parameter 절감
기존 기법과 비교	- Prefix Tuning: 각 레이어에 prefix 삽입 → 파라미터 수 증가 + 학습 복잡 - WARP: [MASK] 중심의 classification 전용 - P-Tuning: 위치 기반 manual design 필요 + full model tuning 병행 → Prompt Tuning은 구조 단순 + full model freeze 유지 가능

https://arxiv.org/abs/2101.00190

Prefix-Tuning: Optimizing Continuous Prompts for Generation

Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix-

arxiv.org

문제 상황 (Problem)	- Fine-tuning은 모든 파라미터를 업데이트해야 하므로, 각 task마다 LM 전체를 복사해 저장해야 함 - 대형 LM (예: GPT-2/3)에서는 이 저장 비용이 매우 큼 - Adapter-tuning, prompt-tuning 등도 제한적
제안 기법 (Method)	- Transformer 구조에서 prefix activation을 학습하여 입력 앞에 삽입 - 모델 파라미터는 고정, 각 task마다 작은 continuous prefix vector만 학습 (0.1%) - prefix는 각 layer의 attention 연산 시 key/value로 직접 사용됨
연산 방식	- prefix는 실제 embedding이 아닌, 각 layer에 입력되는 고정된 activation으로 사용 - 입력 시퀀스는 이 prefix를 가상의 과거 입력처럼 attention 함 → 기존 prompt-tuning보다 표현력이 훨씬 높음
실험 환경 (Setup)	📌 Task 1: Table-to-text ‣ Dataset: E2E, WebNLG, DART ‣ 모델: GPT-2 Medium / Large 📌 Task 2: Summarization ‣ Dataset: XSUM ‣ 모델: BART-Large
비교 기법 (Baselines)	- Full Fine-tuning (100%) - Adapter-tuning (0.1%, 3%) - FT-top2 (GPT 상위 2층만 학습) - Embedding-only (단순 continuous prompt) - Infix-tuning
실험 결과 (Results)	✅ Table-to-text - Prefix(0.1%) ≈ Fine-tune(100%) 성능 - Adapter(3%)보다도 성능 우수 ✅ Summarization - Full fine-tune > Prefix(2%) > Prefix(0.1%) ✅ Low-data & Extrapolation - Prefix가 항상 fine-tune보다 우수한 일반화 성능 - 특히 unseen topic에서 강력
정성 평가 (Qualitative)	- Fine-tune은 low-data에서 허위 정보 생성 경향 - Prefix는 정확하나 덜 생성 (faithful but shorter)
내재 실험 (Intrinsic)	- Prefix length: 길수록 성능 향상되다 일정 이상에서 과적합 경향 (table: 10, summarization: 200 적정) - Embedding-only, infix 모두 full prefix보다 성능 낮음 - Initialization: 실제 단어 기반 초기화 > random 초기화
기여 (Contribution)	- LLM adaptation을 위한 가장 경량적 방법 중 하나 (0.1%) - 완전 모듈화 가능: task/user 별 prefix만 저장하면 됨 - multi-user batching 가능 - unseen domain generalization 능력 우수
한계 (Limitation)	- Long-input이나 complex task (e.g., summarization)에서는 fine-tune보다 성능 하락 - prefix 길이와 초기화에 민감 - 학습 시 MLP-based reparameterization 필요 (직접 학습은 불안정)
단순 embedding 추가와의 차이	❌ 단순 embedding 추가 (prompt-tuning): ‣ 입력 앞에 discrete 또는 continuous token 삽입 ‣ embedding layer까지만 관여 ✅ Prefix-tuning: ‣ 각 Transformer layer에 직접 key/value activation 삽입 ‣ 모든 layer의 attention에 영향 → 훨씬 강력한 표현력

https://arxiv.org/abs/2110.07602

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

Prompt tuning, which only tunes continuous prompts with a frozen language model, substantially reduces per-task storage and memory usage at training. However, in the context of NLU, prior work reveals that prompt tuning does not perform well for normal-siz

arxiv.org

📍 문제 상황	기존 Prompt Tuning 기법들은 다음과 같은 보편성 부족 문제를 가짐: ① 작은 모델 (330M~1B)에서는 fine-tuning보다 성능 저하 ② Sequence Labeling (QA, NER 등) task에서는 거의 작동하지 않음 → 즉, Scale과 Task에 대한 일반화 실패
🧠 방법론	기존 Deep Prompt Tuning을 NLU에 맞게 최적화한 P-Tuning v2 제안: ✅ 각 Transformer Layer에 고유한 prefix prompt 삽입 ✅ Prompt만 학습, 모델은 전부 고정 (frozen) ✅ Reparameterization (MLP)는 task에 따라 optional ✅ [MASK]+Verbalizer 대신 [CLS]+Linear Head 사용 ✅ Multi-task pretraining 지원 (prompt는 공유, classifier는 분리)
⚙️ 실험 세팅	🔹 Model: BERT-large, RoBERTa-large, DeBERTa-xlarge, GLM (2B, 10B) 🔹 Task: SuperGLUE, NER(CoNLL03/04, OntoNotes), QA(SQuAD), SRL(CoNLL05/12) 🔹 모든 실험은 fully-supervised 환경 🔹 모델 파라미터는 고정, continuous prompt만 학습
📊 실험 결과	🔸 SuperGLUE: 작은 모델에서도 fine-tuning과 거의 동일한 성능 도달 🔸 NER/QA/SRL: 기존 PT는 성능 급락, P-Tuning v2는 fine-tuning에 근접 🔸 Multi-task: 특히 SRL/NER task에서 큰 성능 향상 🔸 RTE 같은 Task에서는 fine-tuning보다도 성능 우세
🧩 주요 기여	✅ Prompt Tuning이 전 task, 전 scale에 대해 보편적으로 사용 가능함을 실험으로 최초 증명 ✅ token-level 문제에도 대응 가능한 구조 설계 ✅ Verbalizer 제거, Multi-layer Prompt 삽입 등으로 표현력 증가 ✅ Fine-tuning 대비 0.1~3%의 파라미터로 동일 성능
⚠ 한계	- 기존 Deep Prompt Tuning 구조의 응용적 최적화이지, 기술 novelty는 작음 - 실험은 모두 Full-supervised 환경에서 수행 (Few-shot 설정은 미포함) - 실험 환경 최적화 (prompt 길이, reparam) 의존성이 높음

https://arxiv.org/abs/2301.12314

Progressive Prompts: Continual Learning for Language Models

We introduce Progressive Prompts - a simple and efficient approach for continual learning in language models. Our method allows forward transfer and resists catastrophic forgetting, without relying on data replay or a large number of task-specific paramete

arxiv.org

🧩 문제 상황	- LLM은 여러 태스크를 순차적으로 학습하는 Continual Learning(CL)에서 • 이전 태스크를 망각(catastrophic forgetting)하고 • 새로운 태스크로의 지식 전이(forward transfer)가 어려움. - 기존 방식들은 데이터 리플레이, 정규화, 모델 복제를 필요로 하며, 효율성과 확장성에 한계가 있음.
🧪 제안 방법 (Progressive Prompts)	- 각 태스크마다 새로운 soft prompt Pₖ를 학습하고 이전 prompt들 [P₁, P₂, ..., Pₖ₋₁]과 순차적으로 이어붙여(concat) 입력에 추가. - 기존 prompt는 고정(frozen) - Base model은 항상 고정, 오직 prompt만 훈련 - prompt embedding은 Residual MLP를 거쳐 안정적 학습 → Pₖ′ = MLP(Pₖ) + Pₖ
🧪 실험 설정	- 모델: BERT-base (full data), T5-large (few-shot) - 태스크 수: 기존 5개(CL benchmark) + 15개 롱시퀀스 세팅(GLUE, SuperGLUE 포함) - Prompt 길이: BERT(20), T5(10~50) - 데이터 크기: 20, 200, 1000 샘플/class별 실험 - 비교 baseline: Finetune, Replay, EWC, LFPT5, Prompt Tuning, Per-task Prompt 등
📊 주요 결과	✅ T5-Large (few-shot): - 기존 SOTA(LFPT5) 대비 +22.4%p 정확도 향상 ✅ BERT-base (full data): - 기존 SOTA(IDBR) 대비 +1.6%p 향상 ✅ 15-task 롱시퀀스: - Few-shot(20/class) 기준 T5: +21.9%, BERT: +33.3% 향상
💡 기여	- Catastrophic Forgetting 방지 + Forward Transfer 달성 - 데이터 저장/리플레이 없이 작동 (memory-free) - Task 수만큼 prompt만 저장하면 됨 (모델-agnostic, efficient) - BERT, T5 모두 적용 가능
⚠️ 한계	- task가 많아질수록 prompt 길이가 선형적으로 증가 → Token 길이 한계(512/1024)에서 제약 발생 가능 - Prompt 간 정보 공유는 attention에 의존, task 간 유사도 적으면 효과 감소 가능
🧪 전이 실험 결과	- IMDb → SST2 등 유사 태스크 전이 시 Prompt Tuning 대비 우수한 forward transfer • Few-shot 5-shot 기준: 평균 +20.4% 향상 - SuperGLUE 성능: 기존 prompt tuning 대비 +2.7% 향상
🔎 해석 가능한 현상	- Attention 분석 결과, 유사 태스크 prompt에 높은 attention 집중됨 예: Amazon → Yelp, IMDb → SST2
📦 사용 데이터	- CL benchmark: AG News, Amazon, Yelp, Yahoo, DBpedia - 추가: GLUE 4개 (MNLI, QQP, RTE, SST2), SuperGLUE 5개 (WiC, CB, COPA, MultiRC, BoolQ), IMDB
⚙️ 학습 세부 설정	- 옵티마이저: Adam (BERT 1e-4, T5 0.3) - Epochs: 최대 300 - Batch size: 8 - Early stopping 적용

https://aclanthology.org/2023.findings-acl.494/

🧩 문제 상황	- Continuous Prompt(P-tuning 등)는 성능은 우수하지만 ❶ 해석 불가 (interpretability 낮음) ❷ 전이 불가 (cross-model transfer 어려움) - 기존 연구는 Continuous Prompt를 단일 discrete token으로 해석하려 했으나 실패 (Prompt Waywardness Hypothesis)
💡 제안 방법론	✅ Combination Hypothesis: Continuous Prompt는 여러 discrete token의 선형 조합이다 방법 개요: 1. 사전 학습된 embedding matrix E∈R^{v×d} 2. Continuous prompt p∈R^d ≈ r^T E 가 되도록 3. r∈R^v : 각 단어 token에 대한 soft weight 4. 다음 두 목표를 동시에 최적화: ① Prompt fidelity: \|\|r^T E−p\|\|2^ ② Downstream fidelity: D_{KL}(M(p ⊕ x), M(r^T E ⊕ x))
🧪 실험 설계	- PLM: BERTbase (source), BERTlarge / RoBERTa (target) - Prompt 방법: P-tuning 사용 - Dataset: SST-2, IMDB, Amazon, AG-News (텍스트 분류) - Scenario: 50-shot / 100-shot / Full - 비교: Random, Nearest Token, LM-BFF, Manual Prompt 등
📈 결과 요약	- 해석된 discrete 조합(r^T E)은 원래 continuous prompt와 유사한 성능 달성 - 특히 few-shot 상황에서 P-tuning과 유사한 성능 - Nearest token보다 훨씬 정확도 높음 (Table 4, 5) - Top-5 token만 사용해도 Manually designed prompt보다 높은 성능 - Cross-model transfer 성공 (BERTbase → RoBERTa 등, 별도 학습 없이)
🎯 핵심 기여	✅ Continuous Prompt를 해석 가능한 discrete 조합으로 설명하는 새로운 관점 제시 ✅ Faithfulness (벡터 근접도) + Downstream fidelity (모델 출력 일치) 동시 만족 ✅ shortcut token 자동 탐지 가능 (ex. "taste", "quality" 등 감정 유도 단어) ✅ Cross-model transfer 가능성 실증 → zero-shot reuse
⚠️ 한계 및 제약	- 완벽한 복원은 아님 (근사 해석) - AGNews 등 복잡한 태스크에서는 해석 성능 저하 - Embedding space가 anisotropic해서 복잡한 해석 어려움 - GPT나 Prefix-Tuning 계열, Decoder 기반 PLM에는 실험 미수행

저작자표시 비영리 (새창열림)

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Embedding(Retriever) 모델 논문2 (5)	2025.08.04
Embedding(Retriever) 모델 논문 1 (0)	2025.07.27
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models (1)	2025.07.21
Attention, pooling 방법에 따른 llm-> encoder 성능 - Pooling And Attention What Are Effective Designs For LLM-Based Embedding Models (4)	2025.07.18
EMB와 GEN을 한꺼번에 - GEM: Empowering LLM for both Embedding Generation and Language Understanding (1)	2025.07.16

현재글soft prompting 관련 논문 정리 1

NLP, AI, XAI에 관심있는 공대생의 일기장...?

Today :
Yesterday :

공대생 도전 일지