데이터 분할 편집하기
IT위키
편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 | 당신의 편집 | ||
10번째 줄: | 10번째 줄: | ||
*[[과적합 문제]] 방지 | *[[과적합 문제]] 방지 | ||
==데이터 분할 방법== | == 데이터 분할 방법 == | ||
==분할 데이터 구성== | == 분할 데이터 구성 == | ||
학습용, 평가용으로만 나누기도 하고 학습용, 검증용, 평가용으로 나누기도 한다. | 학습용, 평가용으로만 나누기도 하고 학습용, 검증용, 평가용으로 나누기도 한다. | ||
* '''학습용 데이터(Training Set)''': 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터 | |||
* '''검증용 데이터(Validation Set)''': 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터 | |||
* '''평가용 데이터(Test Set)''': 모델 성능 개선 및 적합성 검증용 데이터 | |||
** 검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이 | |||
*''' | == 고려사항 == | ||
*''' | * '''데이터의 대표성''': 학습용 데이터와 평가용 데이터은 전체 데이터에 대한 대표성을 가져야 함 | ||
*''' | * '''시간의 방향성''': 과거 데이터로부터 미래 데이터를 예측하고자 할 경우에는 데이터를 섞을 수 없음 | ||
** 학습용 데이터에 있는 데이터보다 평가용 데이터의 모든 데이터가 미래의 것으로 구성 | |||
* '''데이터 중복''' : 각 훈련, 검증, 평가 데이터셋에는 데이터 포인트의 중복이 없도록 구성 | |||
=== 데이터 분할 비율 === | |||
===데이터 분할 비율=== | |||
*일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음) | *일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음) | ||
*학습용과 검증용은 학습 과정에서 사용하며 | *학습용과 검증용은 학습 과정에서 사용하며 검증용은 학습 과정에서 사용하지 않음 | ||
[[파일:데이터 분할 예시.png|700x700픽셀]] | [[파일:데이터 분할 예시.png|700x700픽셀]] | ||
45번째 줄: | 43번째 줄: | ||
*7. 분석 모형 리모델링 | *7. 분석 모형 리모델링 | ||
==같이 보기== | == 같이 보기 == | ||
*[[데이터 마이닝]] | * [[데이터 마이닝]] | ||
*[[데이터 분석 모형]] | * [[데이터 분석 모형]] |