데이터 분할
From IT Wiki
- 한정된 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터 등으로 분할하여 사용하는 기법
데이터 분할 이유
데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다.
데이터 분할 방법
분할 데이터 구성
학습용, 평가용으로만 나누기도 하고 학습용, 검증용, 평가용으로 나누기도 한다.
- 학습용 데이터(Training Set): 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터
- 검증용 데이터(Validation Set): 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터
- 평가용 데이터(Test Set): 모델 성능 개선 및 적합성 검증용 데이터
- 검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이
고려사항
- 데이터의 대표성: 학습용 데이터와 평가용 데이터은 전체 데이터에 대한 대표성을 가져야 함
- 시간의 방향성: 과거 데이터로부터 미래 데이터를 예측하고자 할 경우에는 데이터를 섞을 수 없음
- 학습용 데이터에 있는 데이터보다 평가용 데이터의 모든 데이터가 미래의 것으로 구성
- 데이터 중복 : 각 훈련, 검증, 평가 데이터셋에는 데이터 포인트의 중복이 없도록 구성
데이터 분할 비율
- 일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음)
- 학습용과 검증용은 학습 과정에서 사용하며 검증용은 학습 과정에서 사용하지 않음
모형 선정 과정
모형 선정의 첫번째 과정으로 데이터 분할이 사용된다.
- 1. 데이터 분할
- 2. 분석 모형 학습
- 3. 분석 모형 검증
- 4. 분석 모형 선택
- 5. 분석 모형 전개
- 6. 분석 모형 모니터링
- 7. 분석 모형 리모델링