728x90
언어 모델의 학습이 시작됐다면, 해당 모델이 내가 원하는 작업을 제대로 수행할 수 있는지 검증하고 평가해야 한다.
평가 방법은 크게 시점과 방법에 따라 나눌 수 있다.
<학습 도중 / 학습이 완료된 후>
- 학습 도중:
- 데이터의 양이 많거나 모델의 크기가 커서 학습이 오래 걸리는 작업인 경우
- 데이터셋을 학습(Train), 검증(Valid), 테스트(Test) 데이터셋으로 나누고, 이 중 검증(Valid) 데이터셋을 사용하여 학습 중간에 학습이 잘 진행되고 있는지 체크한다. - 학습 완료 후:
- 학습한 언어 모델이 정의한 문제를 실제로 잘 풀 수 있는지 검증해야 한다.
- 준비된 데이터셋의 테스트(Test) 데이터셋을 사용하거나, 새로운 테스트 데이터셋을 사용한다.
<정량 평가(Quantitative Evaluation) / 정성 평가(Qualitative Evaluation)>
- 정량 평가:
- 모델의 성능을 숫자나 측정 가능한 지표를 사용하여 평가하는 방법
- 학습된 모델로 테스트 데이터셋에 대해서 정답을 추론하고 나면, 예측된 값들을 실제 정답과 비교함으로써 정량적인 수치(예: 정확도(accuracy), F1 점수, RMSE 등)로 표현할 수 있다.
- 개입 없이 자동으로 모델의 성능을 평가하므로 Auto-Evaluation이라고도 한다. - 정성 평가:
- 채점에 명확한 기준을 설정할 수 없거나, 확실한 정답을 결정할 수 없을 확률이 높은 경우에 사용
- 모델이 예측한 값을 사람이 직접 정성적인 기준에 따라 평가하는 방법(예: 이미지나 음악 작품의 감성 분석을 위한 주관적 평가
- 사람의 개입으로 평가하므로 Human Evaluation이라고도 한다.
728x90
'자연어 처리(NLP) 공부' 카테고리의 다른 글
| WordPiece Tokenizer 알고리즘 (1) | 2023.06.08 |
|---|---|
| BPE(Byte Pair Encoding) 알고리즘 (0) | 2023.06.07 |
| 탐색적 데이터 분석(EDA, Exploratory Data Analysis)이 왜 필요할까? (0) | 2023.06.02 |
| 웹 크롤링(Web Crawling)시 주의할 점? (0) | 2023.06.02 |
| 벤치마크 데이터셋(Benchmark Dataset)이란? (0) | 2023.06.02 |