자연어 처리 진행 순서

🐱‍👤지식닌자 2023. 6. 2. 21:29

2023. 6. 2. 21:29

728x90

문제 정의
- 어떤 문제를 풀 것인지 정의하고, 정의한 문제를 풀기 위해 솔루션 찾기

↓
데이터 수집 및 분석
- 선정한 문제를 해결하기 위한 데이터 수집- 외부 데이터 또는 웹 크롤링
- 탐색적 데이터 분석(EDA, Exploratory Data Analysis)

↓
데이터 전처리
- 데이터 분석이 끝나면 전처리(Preprocessing) 작업을 한다.

↓
모델링
- 언어 모델(Language Model)을 사용하여 문장이나 단어에 확률을 할당
- 어떤 언어 모델이 문제 해결에 가장 적합한지 탐색해야 한다.

↓
모델 학습
- 준비된 데이터셋으로 모델 학습
- 모델 구조에 따라 학습 방법이 결정되므로, 학습 가능한 형태로 만들기 위해 전처리가 추가될 수 있다.
- 모델에 따라 추가적인 데이터 수집이 필요할 수 있기 때문에 모델을 먼저 선정하는 경우도 있다.
- GPU 환경에서 학습하며 자신의 컴퓨터 조건에서 가용할 수 있는 학습 파라미터를 설정한다.

↓
모델 평가
- 학습 도중: 데이터 양이 많거나 모델 크기가 큰 경우, 학습(Train), 검증(Valid), 테스트(Test) 데이터셋으로 나누고 이 중 검증(valid) 데이터셋을 사용하여 중간 체크
- 학습 완료 후: 테스트(Test) 데이터셋을 사용하거나 새로운 테스트 데이터셋들을 사용하여 체크

728x90

웹 크롤링(Web Crawling)시 주의할 점? (0)	2023.06.02
벤치마크 데이터셋(Benchmark Dataset)이란? (0)	2023.06.02
여러 가지 자연어 처리 Task를 알아보자! (0)	2023.06.02
[NLP 스터디] BERT (0)	2023.05.29
[NLP 스터디] Transformer의 구조를 알아보자 (0)	2023.05.29

아는 것의 미학 🌼