[NLP 스터디] Transformer의 구조를 알아보자

🐱‍👤지식닌자 2023. 5. 29. 02:17

2023. 5. 29. 02:17

728x90

CNN과 RNN을 대체하는 트랜스포머(Transformer)

트랜스포머(Transformer)는 자연어 처리에 사용되는 딥 러닝 모델 중 하나로, 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망이다. 2017년에 구글에서 발표된 "Attention Is All You Need"라는 논문에서 소개되었다.

트랜스포머가 등장하기 전에는 LSTM이나 GRU같은 RNN 기반의 알고리즘이 가장 최신 딥러닝 알고리즘이었다. 트랜스포머가 등장하면서 이를 기반으로 다양한 모델이 만들어졌다.

라벨링은 없애고 성능은 높이고

트랜스포머의 등장 전까지는 라벨링된 대규모 데이터 세트로 신경망을 훈련해야 했는데요. 이런 데이터 세트들은 구축에 많은 시간과 비용이 소요되죠. 트랜스포머는 요소들 사이의 패턴을 수학적으로 찾아내기 때문에 이 과정이 필요 없습니다. 그 덕분에 수조 개의 이미지와 페타바이트(petabytes)급 텍스트 데이터를 웹과 기업 데이터베이스에서 사용할 수 있게.. - 생략-
- https://blogs.nvidia.co.kr/2022/04/01/what-is-a-transformer-model/

트랜스포머의 신경망은 어떻게 구성되어 있는가?

트랜스포머는 기존의 순환 신경망(RNN)과 달리 순차적인 처리를 하지 않고, 입력과 출력 시퀀스 간의 전체적인 상호 관계를 고려하는 기법을 사용한다. 이를 위해 "어텐션(Attention)" 메커니즘이 핵심적으로 사용되며, 어텐션을 통해 입력 시퀀스의 모든 원소가 출력 시퀀스의 모든 원소와 상호 작용할 수 있다.

트랜스포머는 크게 인코더-디코더 구조로 이루어져 있다.

인코더는 입력 시퀀스를 임베딩하고 여러 개의 층으로 구성된 어텐션 메커니즘을 통해 입력의 특징을 추출한다. 이를 위해 인코더는 여러개의 동일한 레이어로 구성되어 있으며 각 레이어는 위치 인코딩(Positional Encoding), 멀티헤드 어텐션(Multi-Head Attention), 피드포워드 신경망(Feed-Forward Neural Network, FFN)으로 이루어져 있다.

디코더는 인코더에서 얻은 정보와 이전의 출력을 활용하여 출력 시퀀스를 생성한다.

트랜스포머는 입력과 출력 시퀀스의 길이에 영향을 받지 않고 병렬 처리가 가능하며, 긴 문장에서도 높은 성능을 보인다. 기계 번역, 요약, 질의응답 시스템, 챗봇 등 다양한 자연어 처리 작업에 널리 활용되고 있다.

인코더는 입력 문장을 이해하는 역할을 한다. 문장의 단어들을 벡터로 변환하고, 단어들 간의 관계를 파악한다. 이를 위해 위치 인코딩(Positional Encoding)을 사용하여 단어의 순서 정보를 전달하고, 멀티헤드 어텐션(Multi-Head Attention) 메커니즘을 통해 단어들 간의 상호 작용을 모델링한다.

디코더는 인코더의 출력과 이전 단계의 출력을 활용하여 문장을 생성한다. 디코더는 셀프 어텐션(Self-Attention)을 사용하여 현재 위치에서 이전에 생성한 단어들에 집중하고, 멀티헤드 어텐션(Multi-Head Attention)을 통해 입력 문장의 단어들과의 관련성을 계산하여 출력 단어를 예측한다.

멀티헤드 어텐션(Multi-Head Attention)은 입력 문장에서 단어들 간의 중요한 상호 작용을 파악하는 메커니즘이다. 이를 통해 트랜스포머는 문맥을 이해하고 단어들의 의미와 관계를 학습한다.

이렇게 트랜스포머는 인코더와 디코더의 조합으로 문장을 이해하고 생성하는 능력을 가지게 된다. RNN과는 달리 문맥 파악에 우수하며, 병렬 처리에 적합하여 더 빠른 속도로 자연어 처리 작업을 수행할 수 있다.

위치 인코딩(Positional Encoding):
트랜스포머는 입력 시퀀스의 단어들의 상대적인 위치 정보를 전달하기 위해 위치 인코딩을 사용한다. 위치 인코딩은 각 위치에 대해 고유한 값을 부여하여 단어의 순서 정보를 모델에 제공한다. 이를 통해 트랜스포머는 단어의 순서를 학습한다.
멀티헤드 어텐션(Multi-Head Attention):
멀티헤드 어텐션이란 입력 시퀀스 내의 단어들 간의 관련성을 계산하는 메커니즘이다. 멀티헤드 어텐션은 여러 개의 어텐션 헤드를 병렬로 수행하여 다양한 관점에서 단어 간의 상호 작용을 모델링한다. 이를 통해 트랜스포머는 단어들 간의 복잡한 관계를 파악하고 특징을 추출할 수 있다.
피드포워드 신경망(FFN):
피드포워드 신경망은 두 개의 완전 연결층으로 구성되어 있으며, 단어 벡터의 차원을 변환하고 비선형성을 도입하여 위치별로 정보를 업데이트한다. 이를 통해 트랜스포머는 각 위치의 단어에 대한 풍부한 표현을 학습할 수 있다.

728x90

'자연어 처리(NLP) 공부' 카테고리의 다른 글

여러 가지 자연어 처리 Task를 알아보자! (0)	2023.06.02
[NLP 스터디] BERT (0)	2023.05.29
NLP, NLU, NLG (0)	2023.05.26
[NLP 스터디] Scaled Dot-Product Attention (0)	2023.05.22
[NLP 스터디] 자연어 처리 기법 GloVe, Swivel, ELMo (0)	2023.05.22

아는 것의 미학 🌼

[NLP 스터디] Transformer의 구조를 알아보자

라벨링은 없애고 성능은 높이고

'자연어 처리(NLP) 공부' 카테고리의 다른 글

+ Recent posts

티스토리툴바