자연어 처리(NLP) 공부
Cell state and 4 Gates of LSTM
🐱👤지식닌자
2023. 9. 2. 01:32
728x90
LSTM (Long Short-Term Memory)는 다음과 같은 네 가지 주요 게이트로 구성되어 있다. 게이트들은 LSTM이 장기 의존성을 관리하고 정보 흐름을 조절한다.
- 셀 상태(Cell State):
LSTM의 장기 메모리. 정보를 저장하고 전달하는 데 사용된다. - 입력 게이트(Input Gate):
입력 게이트는 현재 시간 단계에서 어떤 정보를 새로운 장기 메모리에 저장할 것인지 결정한다. 이 게이트는 시그모이드 활성화 함수를 사용하여 0과 1 사이의 값을 출력하며, 1에 가까울수록 더 많은 정보를 저장한다. - 망각 게이트(Forget Gate):
망각 게이트는 이전 시간 단계에서의 장기 메모리에 저장된 정보 중에서 어떤 정보를 삭제할 것인지 결정한다. 이 게이트는 시그모이드 활성화 함수를 사용하여 0과 1 사이의 값을 출력하며, 0에 가까울수록 정보를 잊어버린다. - 업데이트 게이트(Update Gate):
업데이트 게이트는 새로운 장기 메모리에 어떤 정보를 추가할 것인지 결정하는 역할을 한다. 이 게이트는 현재 시간 단계에서의 후보 값(candidate value)을 생성하기 위한 탄젠트 하이퍼볼릭 탄젠트 활성화 함수를 사용한다. - 출력 게이트(Output Gate):
출력 게이트는 현재 시간 단계에서의 장기 메모리로부터 어떤 정보를 현재 시간 단계의 출력으로 내보낼 것인지 결정한다. 이 게이트는 시그모이드 활성화 함수와 탄젠트 하이퍼볼릭 탄젠트 활성화 함수를 사용하여 출력을 계산한다.
이러한 게이트들은 LSTM이 장기 의존성을 관리하고 정보의 흐름을 조절하는 역할을 한다. 이들 게이트는 학습을 통해 가중치가 조절되며, 데이터에 따라 정보를 저장, 삭제, 업데이트, 출력하는 방식이 동적으로 조절됩니다. 이를 통해 LSTM은 긴 시퀀스에서 장기 의존성을 효과적으로 학습하고 관리할 수 있다.
*탄젠트 하이퍼볼릭 탄젠트(tanh) 활성화 함수?
신경망의 활성화 함수 중 하나로, 주로 범위가 -1에서 1 사이인 출력을 생성한다. 이 함수는 입력값을 받아 비선형 변환을 수행하는데, 주로 순환 신경망(RNN)과 같은 모델에서 자주 사용된다.
728x90