728x90
LSTM (Long Short-Term Memory)과 GRU (Gated Recurrent Unit)는 RNN (Recurrent Neural Network)의 한계와 문제를 개선하기 위해 나온 모델이다. RNN은 순환적인 구조를 가지고 있어 이론적으로는 이전 시간 단계의 정보를 고려할 수 있지만, 실제로는 장기 의존성 문제와 그래디언트 소실 문제를 겪는 경향이 있다. 이러한 문제를 해결하기 위해 LSTM과 GRU가 개발되었다.
RNN의 문제들.
- 장기 의존성 문제(Long-Term Dependency Problem):
RNN은 이전 시간 단계에서 발생한 정보를 나중 시간 단계에서 고려할 때 정보가 흐려지거나 손실되는 문제가 있다. 정보가 손실되면 텍스트의 긴 문장이나 시계열 데이터의 장기적인 패턴을 잘 학습하지 못하게 된다. LSTM과 GRU는 특별한 게이트 매커니즘을 도입하여 이 문제를 해결하였다. LSTM은 cell state라는 장기 메모리를 도입하고, GRU는 업데이트 게이트와 리셋 게이트를 통해 장기 의존성을 더 잘 처리한다. - 그래디언트 소실 문제(Gradient Vanishing Problem):
RNN의 학습 중에 역전파 알고리즘을 사용하여 그래디언트가 너무 작아져 가중치 업데이트가 잘 안 일어나는 문제가 있다. 이로 인해 RNN은 장기 의존성을 처리하는데 어려움을 겪고 학습이 느리게 진행될 수 있다. LSTM과 GRU는 게이트 매커니즘을 통해 그래디언트 소실 문제를 완화시켰다. 게이트 매커니즘을 사용하여 모델이 어떤 정보를 기억하고 어떤 정보를 버릴지를 학습한다.
요약하면, LSTM과 GRU는 RNN의 장기 의존성 처리 및 그래디언트 소실 문제를 해결하고 모델의 학습 능력을 향상시키기 위해 도입된 구조이다. LSTM은 장기 메모리를 통해 이를 달성하고, GRU는 더 간단한 구조를 가지면서도 비슷한 성능을 제공한다.
728x90
'자연어 처리(NLP) 공부' 카테고리의 다른 글
Seq2Seq의 등장 이유? (0) | 2023.09.02 |
---|---|
Cell state and 4 Gates of LSTM (0) | 2023.09.02 |
Sequence to Sequence(Seq2Seq)의 학습과 추론 과정의 차이 (0) | 2023.08.30 |
KoNLPy 형태소 분석기별 품사태그(PoS) 비교 (0) | 2023.08.23 |
TF-IDF 계산해 보기 (0) | 2023.08.19 |