인공지능/자연어 처리

자연어 처리 기계 번역 - 기계 번역이란?

이게될까 2024. 4. 26. 12:59
728x90
728x90

목표 - 대표적인 자연어 처리 task인 기계번역 작업의 목표를 이해하자!

seq2seq나 transformer도 기계번역을 반전하기 위해 나온 것!

전문적인 번역가한테 기계번역이 좋은 프로토 타입이 되어 생산성 향상에 도움이 될 수 있다.

통계 기반 - TF, TF-IDF 등등...

컴퓨터가 언어를 분석해서 알아서 이해해야 한다!

통계 기반이기 때문에 규칙 기반보다는 더 나은 방식이었다.
통계량을 뽑아내기 힘들다 -> 성능이 떨어진다......

딥러닝 기반의 기계 번역 시스템에서 학습하지 않은 단어, 즉 "out-of-vocabulary" (OOV) 단어에 대한 처리는 중요한 문제 중 하나입니다. FastText와 같은 도구를 사용하여 단어의 부분적인 정보를 학습하는 것 외에도, 몇 가지 다른 접근 방법이 있습니다:

  1. Byte Pair Encoding (BPE): 이 방식은 자주 등장하는 문자의 조합을 단위로 삼아 새로운 단어를 구성합니다. 예를 들어, BPE는 자주 나타나는 문자열 조합을 저장하고, 이를 사용하여 본 적 없는 단어를 처리할 수 있습니다. BPE는 단어를 더 작은 서브워드 단위로 나누어 학습되지 않은 단어도 서브워드 단위로 번역할 수 있게 합니다.
  2. Character-Level Models: 이 모델들은 단어 수준이 아닌 문자 수준에서 작동하여, 학습 데이터에 없는 단어라도 그 구성 문자를 통해 처리할 수 있습니다. 문자 수준 모델은 언어 간의 구조적 유사성을 학습하는 데 유용하며, 매우 드문 단어나 전혀 본 적 없는 단어에도 강력합니다.
  3. Zero-Shot Learning and Transfer Learning: 이 기법들은 학습 데이터에 직접 등장하지 않은 언어나 단어에 대해 모델이 좋은 성능을 발휘할 수 있도록 합니다. 특히, 다양한 언어를 함께 학습시킴으로써 어떤 언어에 대한 학습이 다른 언어에 대한 이해로 전이될 수 있습니다.
  4. Neural Machine Translation with Memory Networks: 메모리 네트워크를 사용한 NMT 모델은 추가적인 메모리 컴포넌트를 도입하여 특정 단어나 문구에 대한 정보를 저장하고 필요할 때 사용할 수 있습니다. 이를 통해 모델이 학습 중에 보지 못한 단어나 표현에 대해서도 더 나은 처리가 가능해집니다.
  5. Use of Glossaries or Dictionaries: 특정 분야나 드문 언어를 처리할 때, 번역 과정에 사전이나 용어집을 포함시키는 방법도 있습니다. 이는 기계 번역 모델이 학습하지 못한 특수 용어나 표현에 대해 정확한 번역을 제공하는 데 도움을 줄 수 있습니다.

이와 같은 다양한 접근 방식은 딥러닝 기반 기계 번역 시스템이 학습 데이터에서 직접 보지 못한 단어들을 처리하는 데 있어 유연성과 효율성을 제공합니다.

728x90