경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
편집을 취소할 수 있습니다.
이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 |
당신의 편집 |
11번째 줄: |
11번째 줄: |
|
| |
|
| ==데이터 분할 방법== | | ==데이터 분할 방법== |
|
| |
| ==분할 데이터 구성==
| |
| 학습용, 평가용으로만 나누기도 하고 학습용, 검증용, 평가용으로 나누기도 한다.
| |
|
| |
| *'''학습용 데이터(Training Set)''': 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터
| |
| *'''검증용 데이터(Validation Set)''': 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터
| |
| *'''평가용 데이터(Test Set)''': 모델 성능 개선 및 적합성 검증용 데이터
| |
| **검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이
| |
|
| |
| ==고려사항==
| |
|
| |
| *'''데이터의 대표성''': 학습용 데이터와 평가용 데이터은 전체 데이터에 대한 대표성을 가져야 함
| |
| *'''시간의 방향성''': 과거 데이터로부터 미래 데이터를 예측하고자 할 경우에는 데이터를 섞을 수 없음
| |
| **학습용 데이터에 있는 데이터보다 평가용 데이터의 모든 데이터가 미래의 것으로 구성
| |
| *'''데이터 중복''' : 각 훈련, 검증, 평가 데이터셋에는 데이터 포인트의 중복이 없도록 구성
| |
|
| |
| ===데이터 분할 비율===
| |
|
| |
|
| *일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음) | | *일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음) |
| *학습용과 검증용은 학습 과정에서 사용하며 평가용은 학습 과정에서 사용하지 않음 | | *학습용과 검증용은 학습 과정에서 사용하며 검증용은 학습 과정에서 사용하지 않음 |
|
| |
|
| [[파일:데이터 분할 예시.png|700x700픽셀]] | | [[파일:데이터 분할 예시.png|700x700픽셀]] |
|
| |
| ==모형 선정 과정== | | ==모형 선정 과정== |
| 모형 선정의 첫번째 과정으로 데이터 분할이 사용된다. | | 모형 선정의 첫번째 과정으로 데이터 분할이 사용된다. |
45번째 줄: |
27번째 줄: |
| *7. 분석 모형 리모델링 | | *7. 분석 모형 리모델링 |
|
| |
|
| ==같이 보기== | | == 같이 보기 == |
|
| |
|
| *[[데이터 마이닝]] | | * [[데이터 마이닝]] |
| *[[데이터 분석 모형]] | | * [[데이터 분석 모형]] |