인공지능/논문 리뷰 or 진행

OSCAR: Online Soft Compression And Reranking

이게될까 2026. 4. 26. 01:25
728x90
728x90

https://arxiv.org/abs/2504.07109

 

OSCAR: Online Soft Compression And Reranking

Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by integrating external knowledge, leading to improved accuracy and relevance. However, scaling RAG pipelines remains computationally expensive as retrieval sizes grow. To address t

arxiv.org

이번에도 네이버 랩스 유럽에서 나온 token compression 관련 논문입니다.

2025.08.19 - [인공지능/논문 리뷰 or 진행] - PISCO: Pretty Simple Compression for Retrieval-Augmented Generation

 

PISCO: Pretty Simple Compression for Retrieval-Augmented Generation

2025.02.26 - [인공지능/논문 리뷰 or 진행] - Embedding + Generation Model 사전 논문 조사1 Gecko, COCOM Embedding + Generation Model 사전 논문 조사1 Gecko, COCOM2025.02.25 - [인공지능/논문 리뷰 or 진행] - GRIT 생성과 Embedd

yoonschallenge.tistory.com

이전에는 Pisco라는 논문으로도 압축을 진행했었습니다.

 

https://huggingface.co/collections/naver/oscar

 

OSCAR - a naver Collection

Online soft compression models for RAG. We release the models with llama-1B as compressor.

huggingface.co

모델 공개도 되어 있습니다. 

 

여기서도 텍스트를 단순 요약하는 것이 아닌 몇 개의 연속 백터 embedding token으로 압축하는 방법을 사용하여 LLM이 문서로 인해 폭증하는 리소스 소모를 줄이려고 합니다. 

단순 텍스트를 줄이는 방법은 쿼리에 맞춰 문서를 줄이거나, 해석 가능하다는 장점이 있지만, 압축률이 낮으며 텍스트 형태를 유지가 필요하여 과감한 압축이 어려우며 효율 개선도 제한된다. 

연속 벡터로 압축하는 방법은 높은 압축률이 가능하고, 토큰 생성에 리소스가 감소하며 임베딩에 정보 밀도를 높게 압축할 수 있는 장점이 있음
그러나 문서 embedding을 사전에 계산해서 저장한다 => 저장 공간이 많이 들고, 쿼리에 상관 없게 문서가 압축된다. Compressor가 필요하고, online 적용이 어렵다는 단점이 있다.

=> OSCAR는 이 둘 장점을 결합하여 진행함 

OSCAR는 T-FLOPs는 낮으면서 높은 정확도를 보이는 것을 볼 수 있다.

Pisco가 생각보다 추론 T-FLOPs가 높은 것이 의외네요 

Online방법으로 쿼리와 문서를 함께 넣는 방식으로 압축을 진행하여 같은 문서라도 쿼리가 달라지면 압축 임베딩도 달라지게 됩니다. => 근데 이건 Compressor를 작은 모델로 해야 한다는 점이 있겠네요 

그래서 여기선 decoder의 앞단을 compressor로 쓰거나, 작은 1B모델을 compressor(이 때는 차원을 맞추기 위해 Projection layer로 dense 2개와 ReLU가 들어갔음)로 쓰네요 

그래서 Docs(128) + Query(n) + Memory token(8)을 넣어서 Memory Token(8)위치의 임베딩을 넘깁니다. 

이 임베딩을 다시 디코더에 쿼리와 함께 넣어서 출력을 잘 하도록 학습한 것이 OSCAR네요. 

학습은 Teacher forcing 으로 아마 원문 복원을 하려고 했을 것 같습니다. 

근데 이건 음 논문으로 나오진 못할 것 같기도 하고.... 아카이브니까 나오지 컨퍼런스에는 힘들 것 같네요 

여기선 기본으로 128 -> 8로 16배 압축하여 진행합니다. 

여기서 리랭커의 역할도 같이 할 수 있습니다. 

Docs(128) + Query(n) + Memory token(8) + RR 으로 Relevance Score를 예측하게 됩니다. 

그래서 Compressor가 Reranking까지 할 수 있도록 하여 Reranker 비용이 감소하게 됩니다. 

 

학습때는 top-5 document를 사용하고, 평가시에는 top-10 document를 사용하여 일반화가 되는지를 확인했음 

Figure가 조금 깨지긴 했지만... 

Oscar의 승률이 대부분의 상황에서 높은 것을 알 수 있다. 

결국 No compression 대비 얼마나 정확도가 덜 떨어지는지, 연산량은 얼마나 감소하는지를 파악해야 합니다.

여기서 OSCAR는 성능감소 거의 없이 연산량도 확 줄인 것을 볼 수 있습니다.

그러나 PISCO가 너무 잘 하는데..... 

compression이 offline상황이라는 것으로 직접 비교를 진행하지 않았습니다.  

 

 

이건 뚜렷하게 나타나진 않지만 No compression과 성능차이가 크지 않은 것을 볼 수 있습니다.

근데 Compression의 역할을 보여주려면 더 잘해야 하는 거 아닌가 싶기도 하고.... 

각종 요소들이 빠지면 성능이 떨어지는 것을 볼 수 있습니다. 

128에서 성능이 나쁘지 않은 것도 볼 수 있습니다. 

질문을 보고 문서를 압축하는 것이 중요하고, 압축률이 커질수록 Query-Document의 중요성이 커짐 

다른 인코더로도 가능한 모습을 보여줍니다. 

llama 1B가 잘 한건 사이즈 덕이 아닌가 싶긴 합니다 

리랭킹 성능도 봤는데 준수한 성능을 보여주는 것을 볼 수 있었습니다. (teacher model은 55.4)

핵심 문제 RAG에서 검색 문서를 그대로 LLM에 넣으면 context 길이가 커져 inference 비용, latency, memory 사용량이 크게 증가함
기존 방법의 한계 Hard compression은 query-aware지만 압축률이 낮고, soft compression은 압축률은 높지만 대부분 offline·query-independent라 동적 RAG에 부적합함
제안 방법 검색 문서 dᵢ를 질문 q와 함께 compressor LLM에 넣어, 문서를 몇 개의 연속 embedding token으로 압축하는 online query-dependent soft compression 제안
핵심 구조 Query + Document + [MEM] tokens → Compressor → compressed embeddings → Generator LLM → Answer
[MEM] token 역할 BERT의 [CLS]처럼 문서와 질문의 관련 정보를 특정 hidden state에 저장하도록 학습되는 memory token
압축 방식 128-token 문서를 보통 8개 embedding으로 압축하여 16× compression 수행. 추가로 128× compression도 실험
Query-dependent 핵심성 같은 문서라도 질문에 따라 필요한 정보가 다르므로 C(dᵢ)가 아니라 C(q, dᵢ)로 압축함. Ablation에서 query-independent 방식은 성능이 크게 하락
Compressor 설계 1 OSCAR-N-Layers: generator LLM의 앞쪽 N개 layer만 사용. hidden space 정렬이 쉬워 별도 pretraining 없이 학습 가능
Compressor 설계 2 OSCAR-llama: Llama-3.2-1B를 작은 compressor로 사용하고, dense layer를 통해 generator embedding space에 맞춤. 효율이 가장 좋지만 pretraining 필요
학습 목표 No-compression RAG pipeline의 teacher answer를 따라 하도록 sequence-level distillation 수행
Loss 개념 compressed embedding을 입력받은 generator가 teacher answer token을 잘 예측하도록 compressor와 generator를 함께 학습
Generator 학습 generator는 LoRA로 fine-tuning, compressor는 full fine-tuning. Generator를 freeze하면 성능이 하락
Reranking 확장 compressor에 [RR] token을 추가해 document relevance score도 예측. 즉, compression과 reranking을 하나의 forward pass로 통합
학습 데이터 893K queries, Wikipedia-KILT 문서 chunk, SPLADE-v3 retrieval, DeBERTa-v3 reranker, Mistral-7B teacher 사용
평가 데이터셋 Natural Questions, TriviaQA, HotpotQA, ASQA, PopQA, BioASQ-12B
평가 지표 Accuracy, LLM Evaluation, GPT-4o pairwise comparison
주요 결과: Mistral-7B No-compression 평균 accuracy 0.68, OSCAR-llama도 0.68 유지. 계산량은 20.33 → 6.15 T-FLOPs로 감소, 3.3× speed-up
주요 결과: Qwen-7B No-compression 평균 accuracy 0.65, OSCAR-llama 0.67. 계산량은 18.94 → 5.83 T-FLOPs, 3.2× speed-up
주요 결과: Mistral-24B No-compression 평균 accuracy 0.68, OSCAR-llama 0.69. 계산량은 64.29 → 13.37 T-FLOPs, 4.8× speed-up
Ablation 핵심 Query-dependent compression, compressor pretraining, generator fine-tuning이 모두 중요함
강점 RAG 성능을 거의 유지하면서 inference 비용을 크게 줄임. 특히 큰 LLM일수록 효율 이점이 큼
한계 generator별로 별도 학습이 필요하고, closed-source API LLM에는 직접 적용하기 어려움. compressed embedding의 해석 가능성과 privacy 분석도 부족함
최종 결론 OSCAR는 RAG 검색 문서를 질문 조건부 embedding으로 online 압축하여, hard compression보다 높은 압축률과 soft compression보다 실용적인 online 적용성을 동시에 달성한 RAG 효율화 방법

학습 데이터 셋 - 893 k 

pretrained - COCOM 계열 연구 

728x90