728x90

교차 검증(Cross validation)은 머신러닝 모델의 성능을 평가하는 방법 중 하나로, 데이터를 여러 개로 나누고 여러 모델을 학습하여 성능을 평가하는 방법이다. (개념적인 의미)

 

이런 방식을 사용하는 이유는 데이터를 학습용/평가용 데이터셋으로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있기 때문이다. 즉, 정확성을 높이기 위해서이다.

 

예) k-fold 교차 검증

데이터셋: 1000개, K = 5 (데이터셋을 5개의 부분집합으로 나눈다는 의미)

각각의 부분집합은 200개의 샘플로 이루어 진다.

이 때, 1개(200개 샘플)는 테스트용으로 사용하고 나머지 4개(800개 샘플)는  학습용으로 사용하여 모델을 학습시키고 성능을 평가한다. 이러한 과정을 5번 반복하여, 5개의 성능 평가 결과를 얻는다. 

5개의 성능 평가 결과의 평균을 내 모델의 최종적인 성능을 평가한다.

 

 

728x90

+ Recent posts