데이터 분할: Difference between revisions
From IT Wiki
(새 문서: 분류:데이터 과학분류:빅데이터분석기사 ;한정된 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터 등으로 분할하여 사용하...) |
|||
(4 intermediate revisions by one other user not shown) | |||
Line 1: | Line 1: | ||
[[분류:데이터 과학]][[분류:빅데이터분석기사]] | [[분류:데이터 과학]] | ||
[[분류:빅데이터분석기사]] | |||
;한정된 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터 등으로 분할하여 사용하는 기법 | ;한정된 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터 등으로 분할하여 사용하는 기법 | ||
== 데이터 분할 이유 == | ==데이터 분할 이유== | ||
데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다. | 데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다. | ||
== 데이터 분할 방법 == | *[[데이터 분석 모형]] 검증 | ||
* | *[[과적합 문제]] 방지 | ||
* | |||
==데이터 분할 방법== | |||
==분할 데이터 구성== | |||
학습용, 평가용으로만 나누기도 하고 학습용, 검증용, 평가용으로 나누기도 한다. | |||
*'''학습용 데이터(Training Set)''': 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터 | |||
*'''검증용 데이터(Validation Set)''': 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터 | |||
*'''평가용 데이터(Test Set)''': 모델 성능 개선 및 적합성 검증용 데이터 | |||
**검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이 | |||
==고려사항== | |||
== 모형 선정 과정 == | *'''데이터의 대표성''': 학습용 데이터와 평가용 데이터은 전체 데이터에 대한 대표성을 가져야 함 | ||
*'''시간의 방향성''': 과거 데이터로부터 미래 데이터를 예측하고자 할 경우에는 데이터를 섞을 수 없음 | |||
**학습용 데이터에 있는 데이터보다 평가용 데이터의 모든 데이터가 미래의 것으로 구성 | |||
*'''데이터 중복''' : 각 훈련, 검증, 평가 데이터셋에는 데이터 포인트의 중복이 없도록 구성 | |||
===데이터 분할 비율=== | |||
*일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음) | |||
*학습용과 검증용은 학습 과정에서 사용하며 평가용은 학습 과정에서 사용하지 않음 | |||
[[파일:데이터 분할 예시.png|700x700픽셀]] | |||
==모형 선정 과정== | |||
모형 선정의 첫번째 과정으로 데이터 분할이 사용된다. | 모형 선정의 첫번째 과정으로 데이터 분할이 사용된다. | ||
* 1. 데이터 분할 | |||
* 2. 분석 모형 학습 | *1. 데이터 분할 | ||
* 3. 분석 모형 검증 | *2. 분석 모형 학습 | ||
* 4. 분석 모형 선택 | *3. 분석 모형 검증 | ||
* 5. 분석 모형 전개 | *4. 분석 모형 선택 | ||
* 6. 분석 모형 모니터링 | *5. 분석 모형 전개 | ||
* 7. 분석 모형 리모델링 | *6. 분석 모형 모니터링 | ||
*7. 분석 모형 리모델링 | |||
==같이 보기== | |||
*[[데이터 마이닝]] | |||
*[[데이터 분석 모형]] |
Latest revision as of 23:17, 25 May 2022
- 한정된 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터 등으로 분할하여 사용하는 기법
데이터 분할 이유[edit | edit source]
데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다.
데이터 분할 방법[edit | edit source]
분할 데이터 구성[edit | edit source]
학습용, 평가용으로만 나누기도 하고 학습용, 검증용, 평가용으로 나누기도 한다.
- 학습용 데이터(Training Set): 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터
- 검증용 데이터(Validation Set): 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터
- 평가용 데이터(Test Set): 모델 성능 개선 및 적합성 검증용 데이터
- 검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이
고려사항[edit | edit source]
- 데이터의 대표성: 학습용 데이터와 평가용 데이터은 전체 데이터에 대한 대표성을 가져야 함
- 시간의 방향성: 과거 데이터로부터 미래 데이터를 예측하고자 할 경우에는 데이터를 섞을 수 없음
- 학습용 데이터에 있는 데이터보다 평가용 데이터의 모든 데이터가 미래의 것으로 구성
- 데이터 중복 : 각 훈련, 검증, 평가 데이터셋에는 데이터 포인트의 중복이 없도록 구성
데이터 분할 비율[edit | edit source]
- 일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음)
- 학습용과 검증용은 학습 과정에서 사용하며 평가용은 학습 과정에서 사용하지 않음
모형 선정 과정[edit | edit source]
모형 선정의 첫번째 과정으로 데이터 분할이 사용된다.
- 1. 데이터 분할
- 2. 분석 모형 학습
- 3. 분석 모형 검증
- 4. 분석 모형 선택
- 5. 분석 모형 전개
- 6. 분석 모형 모니터링
- 7. 분석 모형 리모델링