https://arxiv.org/abs/2406.05279
SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings
Soft prompt tuning techniques have recently gained traction as an effective strategy for the parameter-efficient tuning of pretrained language models, particularly minimizing the required adjustment of model parameters. Despite their growing use, achieving
arxiv.org

| 🔍 문제 상황 | - Soft Prompt Tuning은 Parameter-Efficient Tuning(PEFT)의 일종으로, 모델 파라미터를 고정한 채로 입력 embedding 앞에 학습 가능한 벡터(soft prompts)를 붙여 학습 - 하지만 다음과 같은 문제 존재: ① 작은 모델/작은 데이터셋에서 학습 불안정 ② convergence가 느림 ③ 초기화가 random이면 수렴 실패 가능 ④ 표현력 부족 |
| 🔑 기존 Soft Prompt 한계 | - 초기화에 따라 성능 variance 큼 - 단순한 random vector는 학습 초기에 의미 정보 없음 - prompt token 수가 적어 표현력 제한 |
| 💡 제안 방법론 | SuperPos-Prompt: - 사전 학습된 token embedding 들을 여러 개 샘플링(m=128)해 두고, 이를 가중합하여 soft prompt vector pi를 생성 - 각 soft prompt token은: p_i = ∑_{j=1}^m p'_{ij}⋅e_j - 가중치 p'_i는 학습 대상이고, embedding e_j는 전체 prompt에 공유됨 - 추가로 dropout 제거 시 학습 성능과 수렴 속도 증가 |
| ⚙️ 실험 설정 | - 백본 모델: T5v1.1-Small / Base (LM-Adapted) - 데이터셋: GLUE + SuperGLUE (총 13개 task: QQP, MNLI, SST-2, CoLA 등) - Prompt 길이: 10개 - 학습 조건: 80 epochs, AdamW, No LR Scheduler - 비교 기법: Simple PT, Residual PT, ATTEMPT, Full Fine-tuning |
| 📊 실험 결과 요약 | - T5-Small 기준: Residual Prompt 대비 +6.4 향상 - T5-Base 기준: Residual Prompt 대비 +5.0 향상 - 일부 Task에서 Full Fine-tuning을 능가 - Dropout 제거 시 수렴 속도 및 성능 모두 향상 - 표준편차 기준으로 가장 안정적인 방법 |
| 🔬 Ablation | - m값(샘플링한 토큰 수)이 성능에 영향 → m = 128에서 성능 plateau - Softmax 적용 시 오히려 성능 하락 (가중합이 더 효과적임) |
| 🧠 기여 | ① soft prompt를 의미 기반 구성으로 안정성 및 표현력 모두 개선 ② dropout 제거의 이점을 prompt tuning에 최초로 실험적으로 증명 ③ Residual/ATTEMPT보다 구조 간단, 학습 속도 빠름, 성능 우수 ④ 사전 훈련된 prompt 없이도 우수한 결과 |
| ⚠️ 한계 | - 실험은 T5에 한정됨 (Decoder-only 구조는 실험 안됨) - 생성 task는 제외됨 (분류 task 위주) - 대규모 모델(수십억 파라미터급)은 미검증 |
| 🔮 향후 연구 | - generation task로 확장 - multimodal 모델로 확장 - SuperPos + pretrained prompt 조합 가능성 탐색 |
| 🧷 한줄 요약 | 사전학습된 임베딩들의 선형 조합으로 soft prompt를 구성해, 표현력과 안정성을 함께 확보하는 경량화 prompt tuning 기법 |
https://arxiv.org/abs/2104.08691
The Power of Scale for Parameter-Efficient Prompt Tuning
In this work, we explore "prompt tuning", a simple yet effective mechanism for learning "soft prompts" to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned throug
arxiv.org

| 문제 상황 | - 거대 언어 모델(LLM)은 downstream task마다 model tuning을 하면 • 막대한 파라미터 저장 비용 • 서빙 비효율성 발생 - GPT-3 식 prompt design은 • 성능 낮음 • 사람이 수동 설계 • 길이 제한 있어 한계 |
| 제안 방법 (Prompt Tuning) | - 전체 사전학습 모델(예: T5)은 완전히 동결 - task-specific하게 학습 가능한 soft prompt(embedding 벡터)를 입력 앞에 추가 - soft prompt만 학습, 본 모델은 고정된 채 사용 - 모든 task를 text-to-text로 변환하여 학습 |
| 방법론 상세 | - soft prompt = 임베딩 벡터 Pe ∈ ℝ<p×e (p: 길이, e: 임베딩 차원) - input 임베딩과 soft prompt를 concat하여 모델 입력 |
| 실험 구성 | ✅ SuperGLUE 8개 task 단일 학습 ✅ Prompt length / init / pretrain 방식 / LM adaptation step에 대한 ablation ✅ Domain transfer (SQuAD → MRQA 등 OOD QA) ✅ QQP ↔ MRPC 도메인 이동 ✅ Prompt ensemble 실험 |
| 결과 요약 | - 모델 크기 커질수록 성능 향상 극대화 → T5-XXL에서는 full model tuning과 성능 거의 동일 - GPT-3 175B보다 훨씬 적은 파라미터로 더 높은 성능 (prompt-tuned T5-Large 기준) - LM adaptation + class label init → 가장 안정적이고 좋은 성능 - 도메인 이동 실험에서도 full model tuning보다 성능 우수 |
| 기여 | ✅ LLM에 대해 가장 단순한 구조로도 prompt tuning만으로 high quality 달성 ✅ 다양한 design choice에 대한 정량적 ablation 분석 ✅ prompt ensemble로 효율적 성능 향상 가능 ✅ parameter efficiency & multi-task 서빙 실현 가능 |
| 한계 및 이슈 | - Soft prompt는 특정 task 전용이라 다른 task에는 재사용 불가 - 해석 가능성이 낮음 (continuous space에서 의미 해석 어려움) - Span corruption만으로 pretrain된 모델은 prompt tuning과 상성이 좋지 않음 → 반드시 LM adaptation 필요 |
| 파라미터 효율성 | - T5-XXL(11B)에 대해 soft prompt 100개 token 사용 시 → trainable param = 전체의 0.0037% → 20,000배 이상 parameter 절감 |
| 기존 기법과 비교 | - Prefix Tuning: 각 레이어에 prefix 삽입 → 파라미터 수 증가 + 학습 복잡 - WARP: [MASK] 중심의 classification 전용 - P-Tuning: 위치 기반 manual design 필요 + full model tuning 병행 → Prompt Tuning은 구조 단순 + full model freeze 유지 가능 |
https://arxiv.org/abs/2101.00190
Prefix-Tuning: Optimizing Continuous Prompts for Generation
Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix-
arxiv.org

| 문제 상황 (Problem) | - Fine-tuning은 모든 파라미터를 업데이트해야 하므로, 각 task마다 LM 전체를 복사해 저장해야 함 - 대형 LM (예: GPT-2/3)에서는 이 저장 비용이 매우 큼 - Adapter-tuning, prompt-tuning 등도 제한적 |
| 제안 기법 (Method) | - Transformer 구조에서 prefix activation을 학습하여 입력 앞에 삽입 - 모델 파라미터는 고정, 각 task마다 작은 continuous prefix vector만 학습 (0.1%) - prefix는 각 layer의 attention 연산 시 key/value로 직접 사용됨 |
| 연산 방식 | - prefix는 실제 embedding이 아닌, 각 layer에 입력되는 고정된 activation으로 사용 - 입력 시퀀스는 이 prefix를 가상의 과거 입력처럼 attention 함 → 기존 prompt-tuning보다 표현력이 훨씬 높음 |
| 실험 환경 (Setup) | 📌 Task 1: Table-to-text ‣ Dataset: E2E, WebNLG, DART ‣ 모델: GPT-2 Medium / Large 📌 Task 2: Summarization ‣ Dataset: XSUM ‣ 모델: BART-Large |
| 비교 기법 (Baselines) | - Full Fine-tuning (100%) - Adapter-tuning (0.1%, 3%) - FT-top2 (GPT 상위 2층만 학습) - Embedding-only (단순 continuous prompt) - Infix-tuning |
| 실험 결과 (Results) | ✅ Table-to-text - Prefix(0.1%) ≈ Fine-tune(100%) 성능 - Adapter(3%)보다도 성능 우수 ✅ Summarization - Full fine-tune > Prefix(2%) > Prefix(0.1%) ✅ Low-data & Extrapolation - Prefix가 항상 fine-tune보다 우수한 일반화 성능 - 특히 unseen topic에서 강력 |
| 정성 평가 (Qualitative) | - Fine-tune은 low-data에서 허위 정보 생성 경향 - Prefix는 정확하나 덜 생성 (faithful but shorter) |
| 내재 실험 (Intrinsic) | - Prefix length: 길수록 성능 향상되다 일정 이상에서 과적합 경향 (table: 10, summarization: 200 적정) - Embedding-only, infix 모두 full prefix보다 성능 낮음 - Initialization: 실제 단어 기반 초기화 > random 초기화 |
| 기여 (Contribution) | - LLM adaptation을 위한 가장 경량적 방법 중 하나 (0.1%) - 완전 모듈화 가능: task/user 별 prefix만 저장하면 됨 - multi-user batching 가능 - unseen domain generalization 능력 우수 |
| 한계 (Limitation) | - Long-input이나 complex task (e.g., summarization)에서는 fine-tune보다 성능 하락 - prefix 길이와 초기화에 민감 - 학습 시 MLP-based reparameterization 필요 (직접 학습은 불안정) |
| 단순 embedding 추가와의 차이 | ❌ 단순 embedding 추가 (prompt-tuning): ‣ 입력 앞에 discrete 또는 continuous token 삽입 ‣ embedding layer까지만 관여 ✅ Prefix-tuning: ‣ 각 Transformer layer에 직접 key/value activation 삽입 ‣ 모든 layer의 attention에 영향 → 훨씬 강력한 표현력 |
https://arxiv.org/abs/2110.07602
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Prompt tuning, which only tunes continuous prompts with a frozen language model, substantially reduces per-task storage and memory usage at training. However, in the context of NLU, prior work reveals that prompt tuning does not perform well for normal-siz
arxiv.org

| 📍 문제 상황 | 기존 Prompt Tuning 기법들은 다음과 같은 보편성 부족 문제를 가짐: ① 작은 모델 (330M~1B)에서는 fine-tuning보다 성능 저하 ② Sequence Labeling (QA, NER 등) task에서는 거의 작동하지 않음 → 즉, Scale과 Task에 대한 일반화 실패 |
| 🧠 방법론 | 기존 Deep Prompt Tuning을 NLU에 맞게 최적화한 P-Tuning v2 제안: ✅ 각 Transformer Layer에 고유한 prefix prompt 삽입 ✅ Prompt만 학습, 모델은 전부 고정 (frozen) ✅ Reparameterization (MLP)는 task에 따라 optional ✅ [MASK]+Verbalizer 대신 [CLS]+Linear Head 사용 ✅ Multi-task pretraining 지원 (prompt는 공유, classifier는 분리) |
| ⚙️ 실험 세팅 | 🔹 Model: BERT-large, RoBERTa-large, DeBERTa-xlarge, GLM (2B, 10B) 🔹 Task: SuperGLUE, NER(CoNLL03/04, OntoNotes), QA(SQuAD), SRL(CoNLL05/12) 🔹 모든 실험은 fully-supervised 환경 🔹 모델 파라미터는 고정, continuous prompt만 학습 |
| 📊 실험 결과 | 🔸 SuperGLUE: 작은 모델에서도 fine-tuning과 거의 동일한 성능 도달 🔸 NER/QA/SRL: 기존 PT는 성능 급락, P-Tuning v2는 fine-tuning에 근접 🔸 Multi-task: 특히 SRL/NER task에서 큰 성능 향상 🔸 RTE 같은 Task에서는 fine-tuning보다도 성능 우세 |
| 🧩 주요 기여 | ✅ Prompt Tuning이 전 task, 전 scale에 대해 보편적으로 사용 가능함을 실험으로 최초 증명 ✅ token-level 문제에도 대응 가능한 구조 설계 ✅ Verbalizer 제거, Multi-layer Prompt 삽입 등으로 표현력 증가 ✅ Fine-tuning 대비 0.1~3%의 파라미터로 동일 성능 |
| ⚠ 한계 | - 기존 Deep Prompt Tuning 구조의 응용적 최적화이지, 기술 novelty는 작음 - 실험은 모두 Full-supervised 환경에서 수행 (Few-shot 설정은 미포함) - 실험 환경 최적화 (prompt 길이, reparam) 의존성이 높음 |
https://arxiv.org/abs/2301.12314
Progressive Prompts: Continual Learning for Language Models
We introduce Progressive Prompts - a simple and efficient approach for continual learning in language models. Our method allows forward transfer and resists catastrophic forgetting, without relying on data replay or a large number of task-specific paramete
arxiv.org

| 🧩 문제 상황 | - LLM은 여러 태스크를 순차적으로 학습하는 Continual Learning(CL)에서 • 이전 태스크를 망각(catastrophic forgetting)하고 • 새로운 태스크로의 지식 전이(forward transfer)가 어려움. - 기존 방식들은 데이터 리플레이, 정규화, 모델 복제를 필요로 하며, 효율성과 확장성에 한계가 있음. |
| 🧪 제안 방법 (Progressive Prompts) |
- 각 태스크마다 새로운 soft prompt Pₖ를 학습하고 이전 prompt들 [P₁, P₂, ..., Pₖ₋₁]과 순차적으로 이어붙여(concat) 입력에 추가. - 기존 prompt는 고정(frozen) - Base model은 항상 고정, 오직 prompt만 훈련 - prompt embedding은 Residual MLP를 거쳐 안정적 학습 → Pₖ′ = MLP(Pₖ) + Pₖ |
| 🧪 실험 설정 | - 모델: BERT-base (full data), T5-large (few-shot) - 태스크 수: 기존 5개(CL benchmark) + 15개 롱시퀀스 세팅(GLUE, SuperGLUE 포함) - Prompt 길이: BERT(20), T5(10~50) - 데이터 크기: 20, 200, 1000 샘플/class별 실험 - 비교 baseline: Finetune, Replay, EWC, LFPT5, Prompt Tuning, Per-task Prompt 등 |
| 📊 주요 결과 | ✅ T5-Large (few-shot): - 기존 SOTA(LFPT5) 대비 +22.4%p 정확도 향상 ✅ BERT-base (full data): - 기존 SOTA(IDBR) 대비 +1.6%p 향상 ✅ 15-task 롱시퀀스: - Few-shot(20/class) 기준 T5: +21.9%, BERT: +33.3% 향상 |
| 💡 기여 | - Catastrophic Forgetting 방지 + Forward Transfer 달성 - 데이터 저장/리플레이 없이 작동 (memory-free) - Task 수만큼 prompt만 저장하면 됨 (모델-agnostic, efficient) - BERT, T5 모두 적용 가능 |
| ⚠️ 한계 | - task가 많아질수록 prompt 길이가 선형적으로 증가 → Token 길이 한계(512/1024)에서 제약 발생 가능 - Prompt 간 정보 공유는 attention에 의존, task 간 유사도 적으면 효과 감소 가능 |
| 🧪 전이 실험 결과 | - IMDb → SST2 등 유사 태스크 전이 시 Prompt Tuning 대비 우수한 forward transfer • Few-shot 5-shot 기준: 평균 +20.4% 향상 - SuperGLUE 성능: 기존 prompt tuning 대비 +2.7% 향상 |
| 🔎 해석 가능한 현상 | - Attention 분석 결과, 유사 태스크 prompt에 높은 attention 집중됨 예: Amazon → Yelp, IMDb → SST2 |
| 📦 사용 데이터 | - CL benchmark: AG News, Amazon, Yelp, Yahoo, DBpedia - 추가: GLUE 4개 (MNLI, QQP, RTE, SST2), SuperGLUE 5개 (WiC, CB, COPA, MultiRC, BoolQ), IMDB |
| ⚙️ 학습 세부 설정 | - 옵티마이저: Adam (BERT 1e-4, T5 0.3) - Epochs: 최대 300 - Batch size: 8 - Early stopping 적용 |
https://aclanthology.org/2023.findings-acl.494/

| 🧩 문제 상황 | - Continuous Prompt(P-tuning 등)는 성능은 우수하지만 ❶ 해석 불가 (interpretability 낮음) ❷ 전이 불가 (cross-model transfer 어려움) - 기존 연구는 Continuous Prompt를 단일 discrete token으로 해석하려 했으나 실패 (Prompt Waywardness Hypothesis) |
| 💡 제안 방법론 | ✅ Combination Hypothesis: Continuous Prompt는 여러 discrete token의 선형 조합이다 방법 개요: 1. 사전 학습된 embedding matrix E∈R^{v×d} 2. Continuous prompt p∈R^d ≈ r^T E 가 되도록 3. r∈R^v : 각 단어 token에 대한 soft weight 4. 다음 두 목표를 동시에 최적화: ① Prompt fidelity: ||r^T E−p||2^ ② Downstream fidelity: D_{KL}(M(p ⊕ x), M(r^T E ⊕ x)) |
| 🧪 실험 설계 | - PLM: BERTbase (source), BERTlarge / RoBERTa (target) - Prompt 방법: P-tuning 사용 - Dataset: SST-2, IMDB, Amazon, AG-News (텍스트 분류) - Scenario: 50-shot / 100-shot / Full - 비교: Random, Nearest Token, LM-BFF, Manual Prompt 등 |
| 📈 결과 요약 | - 해석된 discrete 조합(r^T E)은 원래 continuous prompt와 유사한 성능 달성 - 특히 few-shot 상황에서 P-tuning과 유사한 성능 - Nearest token보다 훨씬 정확도 높음 (Table 4, 5) - Top-5 token만 사용해도 Manually designed prompt보다 높은 성능 - Cross-model transfer 성공 (BERTbase → RoBERTa 등, 별도 학습 없이) |
| 🎯 핵심 기여 | ✅ Continuous Prompt를 해석 가능한 discrete 조합으로 설명하는 새로운 관점 제시 ✅ Faithfulness (벡터 근접도) + Downstream fidelity (모델 출력 일치) 동시 만족 ✅ shortcut token 자동 탐지 가능 (ex. "taste", "quality" 등 감정 유도 단어) ✅ Cross-model transfer 가능성 실증 → zero-shot reuse |
| ⚠️ 한계 및 제약 | - 완벽한 복원은 아님 (근사 해석) - AGNews 등 복잡한 태스크에서는 해석 성능 저하 - Embedding space가 anisotropic해서 복잡한 해석 어려움 - GPT나 Prefix-Tuning 계열, Decoder 기반 PLM에는 실험 미수행 |