인공지능/논문 리뷰 or 진행

LANGSAE EDITING: Improving Multilingual Information Retrieval via Post-hoc Language Identity Removal

이게될까 2026. 1. 14. 17:13
728x90
728x90

https://arxiv.org/abs/2601.04768

 

LANGSAE EDITING: Improving Multilingual Information Retrieval via Post-hoc Language Identity Removal

Dense retrieval in multilingual settings often searches over mixed-language collections, yet multilingual embeddings encode language identity alongside semantics. This language signal can inflate similarity for same-language pairs and crowd out relevant ev

arxiv.org

이번에 논문 제출하게 되어서 작성합니다.

SAE를 통해 언어적인 편향을 제거하여 검색 성능을 높이는 논문입니다.

 

https://github.com/junkim100/LangSAE-Editing

 

GitHub - junkim100/LangSAE-Editing

Contribute to junkim100/LangSAE-Editing development by creating an account on GitHub.

github.com

코드는 여기 공개되어 있습니다.

evaluation 코드는 고쳐놓고 다시 안 올려놔서 쓰면 안 돌아갈 겁니다...

README에 상세하게 적어놨으니 그대로 쓰면 됩니다.

 

왼쪽 그림을 보면 기존 Embedding 모델은 Multi-lingual로 학습이 되더라도 언어 편향적인 정보를 가지고 있어서 저렇게 뭉치는 모습을 볼 수 있습니다.

그리하여 이러한 편향을 제거하고, embedding에 시멘틱한 정보만 남겨놔서 좀 더 검색을 잘 하게 하려 했습니다.

이 그림은 단순화한 그림으로 각 언어별 embedding에 언어적 편향을 버리고, cos sim을 구하는 것을 볼 수 있습니다.

방법은 굉장히 간단합니다.

학습이 다 된 Encoder에 SAE를 다는 것으로 Pooling된 임베딩을 받아서 x64 or x128 or x256 차원을 늘렸다가 다시 복원하는 학습을 진행하여 각 특성이 중복되지 않도록 학습합니다.

그 후에 validation set에서 각 언어별로 일정 % 이상(논문에선 99.9%) 활성화 되는 feature에 마스크를 씌우고, 그 부분은 0으로 없애서 언어의 편향을 지웁니다.

그리고 다시 decoder를 통해 재건된 임베딩으로 검색을 진행합니다.

그랬더니 기존 모델에서 검색을 진행할 때 쿼리와 똑같은 언어 풀은 17개로 대부분 차지하였으나 SAE로 검색을 진행하면 언어적 편향을 제거하여 중국어가 5개로 줄어든 것을 볼 수 있었습니다.

이와 같은 결과와 위에 언어별 표현 그림을 통해 mask는 언어적 feature를 제대로 잡아내서 편향을 제거하고, SAE 통과 후에 의미적 표현만을 남겨놔서 모든 언어가 혼합되어 있는 것을 볼 수 있습니다.

성능 또한 많이 오르고요 

 

SAE는 풀링된 값에 두 개의 MLP Layer (Encoder, Decoder) 만을 지나면 되기에 연산또한 많이 잡아먹지 않습니다.

기존 e5 large로 만들어진 벡터DB가 있다면 이 SAE만 태우면 되는 것이죠

 

저 Mask에 대한 threshold 별로 성능 차이가 난다는 점이 조금 더 해결해봐야 할 지점이라고 생각합니다.

마스크를 만들 때 언어별로 중복되면 지우지 않는 것도 진행해 봤으나 성능이 많이 떨어지는 것도 볼 수 있습니다. 

비슷한 언어별로 언어적 특성이 많이 겹친다고 볼 수 있고, 그 것이 오히려 살려두었을 때 언어적 특성을 좀 더 강하게 했다고 불 수 있겠네요

마지막으로 두 개의 예시 입니다.

검색 풀에서 다른 언어를 좀 더 잘 가져 오고, 정답률도 많이 높아진 것을 볼 수 있습니다.

728x90