반응형

2025/01/19 3

Improving Phrase Chunking by using Contextualized Word Embeddings for a Morphologically Rich Language

https://link.springer.com/article/10.1007/s13369-021-06343-7이 논문은 토큰 임베딩 관련 논문이었습니다.우르두라는 형태론적으로 복잡한 언어에서 문구를 정확히 분할하기도 어렵고, 임베딩이 다의어와 문맥 의존적인 내용을 잘 못 담아 냈습니다.그래서 기존 비문맥적 워드투백터에서 문맥적인 임베딩을 읽을 수 있는 ELMo를 통해 문맥을 훨씬 더 파악할 수 있게 되었고, 청킹 과정 또한 개선해 냈습니다.  연구 문제- 우르두와 같은 형태론적으로 복잡한 언어에서 문구(chunk)를 정확히 분할하기 어려움.- 기존 비문맥적 임베딩(Word2Vec)은 다의어와 문맥 의존성을 반영하지 못함.연구 목적- 문맥 기반 임베딩(ELMo)을 활용하여 우르두 언어의 문구 청킹 성능을 개..

Interpretable semantic textual similarity of sentences using alignment of chunks with classification and regression - 논문 리뷰

https://link.springer.com/article/10.1007/s10489-020-02144-x 청킹에 대해 찾아보다가 이 논문을 보게 되었습니다.문서에 대한 청킹을 찾으려고 했는데 여긴 문장 단위 청킹이 들어가서 좀 다른 내용이긴 하지만 그래도 뭔가 새로운 내용을 배운 것 같습니다.이러한 방법을 문서 단위 청킹으로 들어가기엔 컴퓨팅 자원이 너무 들어가서 사용 불가능할 것 같지만 그래도 문장을 작은 의미 단위로 나눠 청크를 비교하고, 유사도를 계산하며 쌍 분류를 통해 직관적인 해석을 보여줘 높은 점수를 받았습니다.논문의 발표 년도가 좀 오래 되기도 했고, 지금과 같은 초 거대 LLM시대엔 좀 다를 것 같긴 합니다...? 연구 목표문장 간 유사성(semantic textual similarit..

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models - 논문 리뷰

https://arxiv.org/abs/2409.04701 Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding ModelsMany use cases require retrieving smaller portions of text, and dense vector-based retrieval systems often perform better with shorter text segments, as the semantics are less likely to be over-compressed in the embeddings. Consequently, practitioners oftearxiv.org    논문의 목적문서를 청크 단위로 나..

728x90
728x90