데이터 분할: 두 판 사이의 차이
IT 위키
편집 요약 없음 |
편집 요약 없음 |
||
7번째 줄: | 7번째 줄: | ||
데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다. | 데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다. | ||
*[[분석 모형]] 검증 | *[[데이터 분석 모형]] 검증 | ||
*[[과적합 문제]] 방지 | *[[과적합 문제]] 방지 | ||
2020년 11월 29일 (일) 21:53 판
- 한정된 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터 등으로 분할하여 사용하는 기법
1 데이터 분할 이유
데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다.
2 데이터 분할 방법
- 일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음)
- 학습용과 검증용은 학습 과정에서 사용하며 검증용은 학습 과정에서 사용하지 않음
3 모형 선정 과정
모형 선정의 첫번째 과정으로 데이터 분할이 사용된다.
- 1. 데이터 분할
- 2. 분석 모형 학습
- 3. 분석 모형 검증
- 4. 분석 모형 선택
- 5. 분석 모형 전개
- 6. 분석 모형 모니터링
- 7. 분석 모형 리모델링