https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf MOE의 근본 논문이네요MOE 학습하는 방식은 일반 네트워크와 다를 것이 없고, Gate를 통해서 가중치를 추가하여 각 네트워크에 퍼지게 됩니다.여기선 특정 전문가만 계산하는 것이 아니라 전체가 다 계산하게 되어 연산 량이 어마무시하게 늘긴 했습니다. 1. 해결하려는 문제이 논문은 복잡한 데이터 분포를 효과적으로 학습하기 위한 문제를 다루고 있습니다. 특히, 하나의 모델이 데이터의 모든 분포를 캡처하기 어렵기 때문에 이를 해결할 수 있는 방법을 제안하고자 합니다. 연구자들은 다양한 입력 특성에 따라 다른 전문가 모델을 활성화하여 각 지역의 데이터 분포에 적합한 예측을 수행할 수 있는 방법을 찾고 있습니다.2. ..