데이터를 train(훈련), valid(검증), test(테스트) 세 가지로 나누는 이유는 다음과 같다.
1. 모델의 학습(훈련) - 모델 학습
모델은 훈련 데이터의 패턴을 파악하고 예측을 수행하는 데 사용된다. 모델을 훈련시키는 것은 최적의 가중치와 매개 변수를 찾기 위한 과정이다.
2. 모델의 성능 평가(검증) - 모델 성능 평가
이를 통해 모델이 훈련 데이터에서 학습한 내용을 제대로 이해하고 일반화할 수 있는지 확인한다. 검증 데이터는 모델의 하이퍼파라미터 튜닝이나 모델 선택에 사용된다.
3. 모델의 일반화 평가(테스트) - 모델의 최종 성능 평가
이 데이터는 모델이 이전에 본 적이 없는 새로운 데이터를 대상으로 예측을 수행하고 평가한다. 이를 통해 모델의 실제 성능을 추정하고, 새로운 데이터에서의 예측 능력을 확인할 수 있다.
train, valid, test 데이터 분할의 이점:
- 과적합(Overfitting) 방지: 훈련 데이터만 사용하여 모델을 학습하면, 모델은 훈련 데이터에 너무 적합화되어 다른 데이터에 대한 예측 능력이 제한될 수 있다. 검증 데이터를 사용하여 모델의 일반화 능력을 평가함으로써 과적합을 방지하고 최적의 모델을 선택할 수 있다.
- 하이퍼파라미터 튜닝: 모델의 성능은 하이퍼파라미터 값에도 영향을 받습니다. 하이퍼파라미터는 모델의 구조나 학습 알고리즘에 대한 설정 값입니다. 검증 데이터를 사용하여 다양한 하이퍼파라미터 조합의 성능을 비교하고, 최적의 하이퍼파라미터를 선택할 수 있다.
- 일반화 능력 평가: 테스트 데이터는 모델이 이전에 본 적 없는 새로운 데이터에 대한 예측 능력을 평가하기 위해 사용된다. 테스트 데이터를 사용하여 모델의 성능을 평가함으로써 모델이 실제 환경에서 얼마나 잘 동작하는지 확인할 수 있다.
'AI' 카테고리의 다른 글
인공 신경망(Artificial Neural Network, ANN) (0) | 2023.07.01 |
---|---|
다중 선형 회귀(Multiple Linear Regression) VS. 다항 회귀(Polynomial Regression) (0) | 2023.06.30 |
로지스틱 회귀 VS. 선형 회귀 (0) | 2023.05.21 |
나이(Age)의 데이터 형태는 범주형인가, 수치형인가? (0) | 2023.05.20 |
로지스틱 회귀(Logistic Regression) (0) | 2023.04.25 |