인공지능/자연어 처리

자연어 처리 기계 번역 - 규칙, 통계 기반 기계 번역

이게될까 2024. 4. 26. 14:26
728x90
728x90

목표 - 전통적인 통계 기반 기계 번역의 작동 원리와 한계점에 대해 이해!

규칙에 따라 단어 수준으로 번역한다.

각각을 고려하든 전체를 고려하든 이런 규칙을 기반으로 단어를 출력했다.

점점 추상화 시키면서 변환한다. 인코더, 디코더 구조와 같아지는 느낌이네요

attention이 없었기 때문에 단어 간 의미 상관관계는 거의 없겠죠

규칙이 굉장히 많으면 단어 수준에서 좋을 수 있다.

예제 기반 ( 코퍼스 기반) 단어 사전을 구축한다.

뉴스는 정형화 되어 있다. -> 단어의 빈도가 비슷하다.
sns -> 노이즈가 엄청 심해서 구축이 잘 되지 않는다. -> DKvec

통계량 기반이기 때문에 빈도가 달라버리면 엉망으로 만들어질 가능성이 높다. -> 품질 좋은 단어 사전 만들기 어렵다.
예외 처리에 취약하다.

원본언어 -> 추상화 -> 타겟 언어 추상화 -> 타겟 언어로 변환

한국어, 일본어 처럼 구조가 비슷해야 된다고 하네요

원본언어 -> 추상화된 표현(interlingual) -> 타겟 언어

이게 seq2seq와 비슷한거 아닌가?

언어는 역동적, 진화한다. -> 규칙 기반으로는 힘들다!

구나 문서단위에서 분절하는 시스템이다!

통계를 낸 데이터가 충분하면 성능이 좋아진다.

1. 규칙을 만들지 않아도 되고, 통계량만 활용하면 되기 때문에 사람의 손이 줄어든다!

2. 통계량만 뽑으면 된다 -> 데이터가 많아야 되긴 하지만 모든 코퍼스의 통계량을 추출할 수 있다.

3. 언어가 바뀌어도 통계량 데이터셋을 활용해서 다른 언어의 통계량을 사용해도 된다. 

4. 적절한 통계량만 적용해주면 된다.

1. 통계에는 많은 데이터가 필요하다!

2. 문장 구조, 어순을 고려하도록 통계량을 짰다면 어순 문법이 다르다면 안통하다.

3. 의미를 정확히 알고 번역하는 것이 아니다.

4. 2번과 비슷하다

728x90