반응형

2025/02/25 3

GRIT 생성과 Embedding을 동시에 Generative Representational Instruction Tuning - 논문 리뷰

https://arxiv.org/abs/2402.09906 기존 모델들은 생성만 잘하거나, Embedding만 잘 진행하였습니다.그리하여 둘 다 잘 하도록 두개 다 학습을 진행한 GRIT이 등장합니다.생성과 Representation 모두 진행하여 학습하는 것을 볼 수 있다. 임베딩에서는 양방향 Attention을 사용하고, 생성에서는 단방향 Attention을 진행하는 것을 볼 수 있습니다.진짜 단순한 아이디어였고, Loss도 어려운 수식이 아닙니다.Closed Model인 OpenAI를 이기는 모습을 볼 수 있습니다.Embedding 성능에서 높은 성과를 보이는 것을 볼 수 있습니다. 여기서 8X7B의 성능이 낮은 이유는 배치가 작아졌다는 이유라고 말합니다. 여기선 생성형 능력을 볼 수 있습니다.생성..

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models - 논문 리

https://arxiv.org/abs/2405.17428 NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding ModelsDecoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model, incarxiv.org  이 논문에서도 단방향 Attentio..

LLM을 검색에? LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders - 논문 리뷰

https://arxiv.org/abs/2404.05961 LLM2Vec: Large Language Models Are Secretly Powerful Text EncodersLarge decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In tarxiv.org 기존 Attention 메커니즘은 전체적인 입력 시퀸스에서 ..

728x90
728x90