자연어 처리(NLP) 공부

Special Tokens: <PAD>, <UNK>, <SOS>, <EOS>

🐱‍👤지식닌자 2023. 6. 19. 01:21
728x90
<PAD>, <UNK>, <SOS>, <EOS>

 

 

토큰 설정은 텍스트 데이터를 처리하거나 모델에 입력하기 전, 사전 처리하는 과정 중에 중요한 역할을 한다. <PAD>, <UNK>, <SOS>, <EOS>는 일반적으로 자연어 처리에서 사용되는 특수 토큰들의 예시이다. 각 토큰에 대한 설명은 다음과 같다.

 

  • <PAD>: 시퀀스의 길이를 맞추기 위한 패딩 토큰. 시퀀스들의 길이를 동일하게 맞춰주기 위해 추가되는 토큰이다.

  • <UNK>: 모르는 단어를 나타내는 토큰. 어휘에 없는 단어나 희귀한 단어 등을 대체하는 용도로 사용된다.

  • <SOS>: 문장의 시작을 나타내는 토큰. 번역이나 생성 모델에서 사용되어 문장 생성의 시작을 표시한다.

  • <EOS>: 문장의 끝을 나타내는 토큰. 번역이나 생성 모델에서 사용되어 문장 생성의 종료를 표시한다.

 

 

728x90