자연어 처리(NLP) 공부
Special Tokens: <PAD>, <UNK>, <SOS>, <EOS>
🐱👤지식닌자
2023. 6. 19. 01:21
728x90
<PAD>, <UNK>, <SOS>, <EOS>
토큰 설정은 텍스트 데이터를 처리하거나 모델에 입력하기 전, 사전 처리하는 과정 중에 중요한 역할을 한다. <PAD>, <UNK>, <SOS>, <EOS>는 일반적으로 자연어 처리에서 사용되는 특수 토큰들의 예시이다. 각 토큰에 대한 설명은 다음과 같다.
- <PAD>: 시퀀스의 길이를 맞추기 위한 패딩 토큰. 시퀀스들의 길이를 동일하게 맞춰주기 위해 추가되는 토큰이다.
- <UNK>: 모르는 단어를 나타내는 토큰. 어휘에 없는 단어나 희귀한 단어 등을 대체하는 용도로 사용된다.
- <SOS>: 문장의 시작을 나타내는 토큰. 번역이나 생성 모델에서 사용되어 문장 생성의 시작을 표시한다.
- <EOS>: 문장의 끝을 나타내는 토큰. 번역이나 생성 모델에서 사용되어 문장 생성의 종료를 표시한다.
728x90