
Activation Functions - 다중 뉴럴 넷에 비선형성을 추가해줌기울기 소실과 같은 문제 때문에 활성 함수도 계속 진화해왔다. ELU는 또 처음 보네요 결국 Gradient 문제를 해결하거나, 다른 Activation function의 장점을 가져가기 위해 진화되었습니다.task마다, label 구조 마다 다양한 Loss function 함수를 골라서 사용한다. 모든 데이터 셋을 한 배치로 활용해서 epoch당 1번 파라미터 업데이트합니다.업데이트를 동일한 데이터 셋으로 계속 진행되니 결국 local minima에 빠질 수 밖에 없지 않나 싶습니다. 매 데이터 셋 마다 파라미터를 업데이트합니다. 마지막에 진동이 발생할 수 있고, 노이즈의 영향도 커지게 된다. 누적 후 배치 크기만큼 쌓이면 ..