728x90
<PAD> 토큰은 자연어 처리에서 텍스트 시퀀스를 미니배치로 처리하는 과정에서 사용되는 특수 토큰(special token)이다.<PAD> 토큰은 패딩(Padding)을 적용하여 각 문장의 길이를 동일하게 맞추는 데 사용된다.
문장 1: "I love NLP."
문장 2: "Natural Language Processing is fun."
문장 3: "PyTorch is great for NLP tasks."
↓ ↓
문장 1 (패딩 추가): "I love NLP. <PAD> <PAD> <PAD>"
문장 2 (패딩 추가): "Natural Language Processing is fun."
문장 3 (패딩 추가): "PyTorch is great for NLP tasks."
이렇게 패딩을 적용한 후에는 모든 문장의 길이가 동일하게 맞춰져 있으므로, 이를 하나의 미니배치로 묶어서 딥러닝 모델에 입력으로 넣을 수 있다.
728x90
'자연어 처리(NLP) 공부' 카테고리의 다른 글
자동 완성 구현을 위한 데이터? (0) | 2023.08.15 |
---|---|
N-gram, 바이그램(Bi-gram) (0) | 2023.08.14 |
딥러닝에서 마스크(Mask)의 역할 (0) | 2023.07.12 |
GPT(Generative Pre-trained Transformer) (0) | 2023.07.12 |
장기 의존성(long-range dependency)? (0) | 2023.07.11 |