728x90
자연어 처리(Natural Language Processing, NLP)에서 전처리(preprocessing)는 텍스트 데이터를 모델에 입력 가능한 형태로 변환하는 과정이다. 이 과정은 모델의 성능과 정확도에 큰 영향을 미치므로 매우 중요하다.
- 문장 분리(Sentence Segmentation)
자연어 처리의 첫 단계는 텍스트를 문장 단위로 분리하는 것이다. 일반적으로 마침표, 느낌표, 물음표 등 문장 종결자를 이용해 문장을 분리한다. - 토큰화(Tokenization)
텍스트를 단어, 구두점, 숫자 등의 토큰으로 분리하는 과정이다. 모델이 단어를 이해하고 처리할 수 있도록 하기 위해 필요한 과정이다. - 불용어 제거(Stopword Removal)
일반적으로 자주 등장하지만 분석에 큰 의미가 없는 단어를 제거하는 과정이다. 예를 들어 'the', 'a', 'an'과 같은 관사나 'is', 'are', 'was', 'were'와 같은 동사가 이에 해당한다. - 대/소문자 통일(Lowercasing/Uppercasing)
대문자와 소문자를 통일시키는 과정이다. 모델이 단어를 구분할 때 대소문자를 구분하지 않도록 하기 위함이다. - 표제어 추출(Stemming/Lemmatization)
단어의 원형을 추출하는 과정이다. 이를 통해 단어의 수를 줄이고 모델의 정확도를 높일 수 있다.
stemming은 단어의 어간을 추출하는 것이고, lemmatization은 단어의 원형을 추출하는 것이다. - 특수 문자 제거(Removing Special Characters)
문자열에서 특수 문자나 기호를 제거하는 과정이다. 예를 들어, URL 주소나 이메일 주소와 같은 것을 제거한다.
> 이러한 전처리 과정을 거쳐 전처리된 텍스트 데이터를 모델의 입력으로 사용한다.
728x90
'자연어 처리(NLP) 공부' 카테고리의 다른 글
자연어 처리(NLP) - 정수 인코딩(Integer Encoding) (0) | 2023.03.15 |
---|---|
자연어 처리(NLP) - 불용어(stopwords) 제거 (0) | 2023.03.15 |
자연어 처리(NLP) - 토큰화(Tokenization) (2) | 2023.03.11 |
자연어 처리(NLP) 공부 순서 (2) | 2023.03.11 |
자연어 처리(NLP) (0) | 2023.03.10 |