Few-shot 관련 논문

이게될까 2025. 5. 31. 23:23

728x90

Open-domain Implicit Format Control for Large Language Model Generation

Controlling the format of outputs generated by large language models (LLMs) is a critical functionality in various applications. Current methods typically employ constrained decoding with rule-based automata or fine-tuning with manually crafted format inst

arxiv.org

LLM이 다양한 사용자의 출력 형식 요구를 충족하지 못해 Open-domain 상황에서 비효율적이다.

-> 사용자가 제시하는 one-shot 예시를 응답 기반으로 하여 암묵적 형식에 따라 출력하게 만듬

이건 학습을 통해서 해결했네요

학습을 원하진 않아서 이 정도만 보고 패스....

문제 정의	LLM이 다양한 출력 형식(format) 요구를 충족하지 못함. 특히 open-domain 상황에서 명시적 지시 없이 사용자의 응답 형식을 따르는 것은 어려움. 기존 방식은 규칙 기반 디코딩, fine-tuning, in-context learning 등으로 한계 존재.
제안 방법 (OIFC)	사용자가 제공한 one-shot QA 예시를 통해 해당 응답의 암묵적 형식(implicit format)을 학습하고, 이후 질문에 대해 동일한 형식으로 응답하도록 Supervised Fine-Tuning 기반 프레임워크 설계.
입력 구성	입력 쿼리: x, 예시 쿼리-응답: {q₁, r₁} 출력: 모델 응답 y = f(x; {q₁, r₁}) ⇒ r₁의 형식을 y가 암묵적으로 따르도록 학습
핵심 기술	🔸 Query Type 1: (i₁, r₁)을 기반으로 유사 질문 i₂ 생성 후 r₁ 형식 따라 응답 r₂ 생성 🔸 Query Type 2: 하나의 i₁로 서로 다른 형식 r₁₁, r₂₁을 생성한 후 이를 i₂에 전이
데이터셋: OIFC-SFT	총합 994개 (ID), OOD 500개 (ShareGPT 기반) 🔹 OL-CC: 인간 작성 단일턴 QA 🔹 Cat-Ins: 96개 주제 포함 QA 🔹 Belle-2: instruction 중심 사용 형식 다양성과 표현 다양성 극대화
학습 전략	🔹 Stage 1: 일반적인 instruct 학습 (AF-7B-Instruct) 🔹 Stage 2: OIFC-SFT로 형식 제어 중심 fine-tuning (AF-7B-OIFC)
평가 지표	🔸 Helpfulness (문제 해결력) 🔸 Format Correctness (형식 준수율) 모두 0~1 사이 정량 점수. 외부 LLM API를 활용한 자동화 평가 프로토콜 사용
실험 결과 요약	모델 fine-tuning 전후 성능 비교: 🔹 형식 정확도: AF-7B 기준 0.62 → 0.91 (ID) 🔹 도움도: 0.80 → 0.82 (변화 거의 없음) 🔹 FLM-2-52B에서도 유사 성능 향상
주요 기여	① Open-domain 암묵 형식 제어 프레임워크 최초 제안 ② 형식 다양성을 반영한 SFT 데이터셋(OIFC-SFT) 구축 ③ 실험으로 형식 제어 성능 향상 확인 – 도움도 유지하면서도 형식 정확도 크게 향상
활용 가능성	실시간 QA 응답, 요약 형식 통일, 상담 챗봇, 평가/시험 시스템 등에서 사용자의 응답 패턴을 따라가는 고정밀 LLM 응답 설계에 적용 가능

https://arxiv.org/abs/2302.11382

A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT

Prompt engineering is an increasingly important skill set needed to converse effectively with large language models (LLMs), such as ChatGPT. Prompts are instructions given to an LLM to enforce rules, automate processes, and ensure specific qualities (and q

arxiv.org

인용수가 1300회가 넘는 논문이네요

1. 개념 도입	LLM의 출력을 제어하는 프롬프트를 하나의 프로그래밍 인터페이스로 간주
2. 패턴 프레임워크 설계	효과적인 프롬프트 구성을 위해, 소프트웨어 디자인 패턴 형식 차용
3. 16개 프롬프트 패턴 정의	범용적 상황에서 자주 쓰이는 16가지 프롬프트 유형 정리
4. 분류 체계 도입	5개 카테고리로 분류: 입력 의미, 출력 제어, 오류 식별, 개선, 상호작용
5. 구성요소 표준화	모든 패턴은 동일한 구성으로 설명: Intent, Motivation, Structure, Example, Consequences

논문은 위와 같은 구조로 진행되었습니다.

	패턴	핵심 목표
1. Input Semantics	Meta Language Creation	입력 언어의 의미를 명확히 정의
2. Output Customization	Persona, Template, Recipe, Output Automater, Visualization Generator	LLM 출력 형식/구조/스타일 제어
3. Error Identification	Reflection, Fact Check List	LLM의 오류를 사후 확인하거나 인지
4. Prompt Improvement	Question Refinement, Alternative Approaches, Refusal Breaker, Cognitive Verifier	더 나은 질문 유도 및 실패 대응
5. Interaction	Flipped Interaction, Game Play, Infinite Generation	사용자와 LLM의 상호작용 방식 설계
6. Context Control	Context Manager	대화 문맥 설정/제한 또는 리셋

🧠 핵심 아이디어	프롬프트를 반복 가능하고 확장 가능한 “패턴”의 형태로 구조화하여, ChatGPT와의 상호작용 품질을 체계적으로 향상
🎯 연구 목적	- LLM 활용 시 일관되고 효과적인 프롬프트 설계법 제시 - 도메인 독립적 프롬프트 패턴을 통해 재사용성과 일반화 확보
🧩 방법론 요약	1. 프롬프트를 소프트웨어 디자인 패턴처럼 구조화 2. 총 16개의 프롬프트 패턴 정의 3. 각 패턴은 일정한 형식으로 구성: Intent, Motivation, Structure, Example, Consequence 4. 실제 ChatGPT로 패턴 검증 및 예시 구현
📂 패턴 분류 체계	총 5가지 카테고리, 16개 패턴 ① Input Semantics: Meta Language Creation ② Output Customization: Persona, Template, Recipe, Output Automater, Visualization Generator ③ Error Identification: Reflection, Fact Check List ④ Prompt Improvement: Cognitive Verifier, Question Refinement, Alternative Approaches, Refusal Breaker ⑤ Interaction: Flipped Interaction, Game Play, Infinite Generation ⑥ Context Control: Context Manager
🛠️ 대표 패턴 예시	- Flipped Interaction: LLM이 질문을 주도해 정보 수집 후 작업 수행 - Output Automater: 출력 내용을 자동화 가능한 스크립트로 생성 - Persona: 특정 전문가나 도구로 행동하도록 지시 (ex. 보안 전문가, 리눅스 터미널) - Cognitive Verifier: 질문을 세분화하여 정확한 응답 생성
✅ 주요 기여 (Contributions)	- 프롬프트 엔지니어링을 위한 패턴 기반 설계 프레임워크 최초 제안 - 16개 패턴 카탈로그화로 재사용성/확장성 확보 - 소프트웨어 디자인 패턴에서 차용한 표준화된 구조 적용 - Contextual Statements라는 자연어 기반 설계 문법 도입
📈 결과 요약	- ChatGPT에서 실제 적용 가능성 검증 - 복합 패턴 조합 (ex. Persona + Game Play + Visualization) 가능 - 소프트웨어 외 도메인에서도 활용 가능함을 보임
⚠️ 한계점	- 실험은 ChatGPT 기반으로 제한됨 - 정량적 성능 평가 부족 - 복합 패턴 사용 시 비의도적 출력 가능성 존재 - AutoPrompt, Fine-tuning 등 학습 기반 기법과 직접 연결 부족
🔮 활용 및 확장 가능성	- Prompt Pattern Language로 발전 가능 - 도메인 특화 패턴 구성 (ex. 의료, 교육, 법률) - AutoPrompt/CoT와 결합하여 학습 기반 prompt 설계와 연계 가능

저작자표시 비영리 (새창열림)