https://arxiv.org/abs/2402.09906 기존 모델들은 생성만 잘하거나, Embedding만 잘 진행하였습니다.그리하여 둘 다 잘 하도록 두개 다 학습을 진행한 GRIT이 등장합니다.생성과 Representation 모두 진행하여 학습하는 것을 볼 수 있다. 임베딩에서는 양방향 Attention을 사용하고, 생성에서는 단방향 Attention을 진행하는 것을 볼 수 있습니다.진짜 단순한 아이디어였고, Loss도 어려운 수식이 아닙니다.Closed Model인 OpenAI를 이기는 모습을 볼 수 있습니다.Embedding 성능에서 높은 성과를 보이는 것을 볼 수 있습니다. 여기서 8X7B의 성능이 낮은 이유는 배치가 작아졌다는 이유라고 말합니다. 여기선 생성형 능력을 볼 수 있습니다.생성..