728x90
자연어 처리(Natural Language Processing, NLP)에서 전처리(preprocessing)는 텍스트 데이터를 모델에 입력 가능한 형태로 변환하는 과정이다. 이 과정은 모델의 성능과 정확도에 큰 영향을 미치므로 매우 중요하다.

 

  1. 문장 분리(Sentence Segmentation)
    자연어 처리의 첫 단계는 텍스트를 문장 단위로 분리하는 것이다. 일반적으로 마침표, 느낌표, 물음표 등 문장 종결자를 이용해 문장을 분리한다.
  2. 토큰화(Tokenization)
    텍스트를 단어, 구두점, 숫자 등의 토큰으로 분리하는 과정이다. 모델이 단어를 이해하고 처리할 수 있도록 하기 위해 필요한 과정이다.
  3. 불용어 제거(Stopword Removal)
    일반적으로 자주 등장하지만 분석에 큰 의미가 없는 단어를 제거하는 과정이다. 예를 들어 'the', 'a', 'an'과 같은 관사나 'is', 'are', 'was', 'were'와 같은 동사가 이에 해당한다.
  4. 대/소문자 통일(Lowercasing/Uppercasing)
    대문자와 소문자를 통일시키는 과정이다. 모델이 단어를 구분할 때 대소문자를 구분하지 않도록 하기 위함이다.
  5. 표제어 추출(Stemming/Lemmatization)
    단어의 원형을 추출하는 과정이다. 이를 통해 단어의 수를 줄이고 모델의 정확도를 높일 수 있다.
    stemming은 단어의 어간을 추출하는 것이고, lemmatization은 단어의 원형을 추출하는 것이다.


  6. 특수 문자 제거(Removing Special Characters)
    문자열에서 특수 문자나 기호를 제거하는 과정이다. 예를 들어, URL 주소나 이메일 주소와 같은 것을 제거한다.

 

> 이러한 전처리 과정을 거쳐 전처리된 텍스트 데이터를 모델의 입력으로 사용한다.

728x90

+ Recent posts