여기서 1개 데이터마다 input으로 들어갈 차원이 D이라고 가정하겠습니다. 배치는 1이라고 생각할게요.그럼 x는 (1,D)차원이고, 내부 hidden state는 (1,H)니까 x의 Weight는 (D,H)고, hidden state의 weight는 (H,H)겠져 그럼 forget gate에서는 weight를 곱한 x와 hiddenstate를 더한 후 (1,H)에 Sigmoid를 통해 0~1범위로 바꾼 뒤 cell state(장기 기억) (1,H)와 각 요소끼리 곱하여(1,H) 0인 장기 기억은 버리고, 1인 장기 기억은 가지고 갑니다.input gate에서는 또 다른 Weight를 곱한 x와 hiddenstate를 더한 후 sigmoid를 취한 것과또 다른 Weight를 곱한 x와 hiddenstat..