728x90

<PAD> 토큰은 자연어 처리에서 텍스트 시퀀스를 미니배치로 처리하는 과정에서 사용되는 특수 토큰(special token)이다.<PAD> 토큰은 패딩(Padding)을 적용하여 각 문장의 길이를 동일하게 맞추는 데 사용된다.

 

문장 1: "I love NLP."
문장 2: "Natural Language Processing is fun."
문장 3: "PyTorch is great for NLP tasks."

 

                               ↓     

 

문장 1 (패딩 추가): "I love NLP. <PAD> <PAD> <PAD>"
문장 2 (패딩 추가): "Natural Language Processing is fun."
문장 3 (패딩 추가): "PyTorch is great for NLP tasks."

 

이렇게 패딩을 적용한 후에는 모든 문장의 길이가 동일하게 맞춰져 있으므로, 이를 하나의 미니배치로 묶어서 딥러닝 모델에 입력으로 넣을 수 있다.

728x90

+ Recent posts