의사결정 나무 편집하기
IT위키
편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 | 당신의 편집 | ||
1번째 줄: | 1번째 줄: | ||
[[분류:데이터 과학]] | [[분류:데이터 과학]][[분류:프로젝트 관리]] | ||
[[분류:프로젝트 관리]] | |||
;Decision Tree | ;Decision Tree | ||
;의사결정 | ;분류함수를 의사결정 규칙으로 표현할 때 타원(분기점), 직선(가지), 사각형(잎사귀)을 이용하여 나무형태로 그려서 분석하는 기법 | ||
* 데이터들의 속성을 기반으로 분할 기준을 판결하고, 분할 기준에 따라 트리 형태로 분기하여 모델링 | |||
*데이터들의 속성을 기반으로 분할 기준을 판결하고, 분할 기준에 따라 트리 형태로 분기하여 모델링 | * 데이터 분석 결과가 의사결정 나무의 분기점을 통해 시각적으로 확인할 수 있어 해석이 용이 | ||
*데이터 분석 결과가 의사결정 나무의 분기점을 통해 시각적으로 확인할 수 있어 해석이 용이 | |||
[[파일:의사결정나무.png|400px]] | [[파일:의사결정나무.png|400px]] | ||
== | == 유형 == | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! | ! 단계 !! 설명 | ||
|- | |- | ||
| | | 의사결정 나무 형성 || | ||
분석 목적과 자료구조에 따라 적절하게 분리 기준(Split Criterion) 및 정지규칙(Stopping Rule) 지정 | |||
|- | |- | ||
| | | 가지치기 || 분류오류(Classification Error) 유발 위험이 높거나 부적절한 규칙을 가지는 가지(Branch) 제거 | ||
|- | |- | ||
| | | 타당성 평가 || 이익 도표(Gains Chart), 위험 도표(Risk Chart), 검정 자료(Test Data)에 의한 교차타당성(Cross Validation) 등을 이용하여 평가 | ||
|- | |- | ||
| | | 결과 도출 || 해석 결과에 따라 분류 및 예측 모형 설정 | ||
| | |||
| | |||
|} | |} | ||
==활용 알고리즘== | == 활용 알고리즘 == | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
!알고리즘!!설명 | ! 알고리즘 !! 설명 | ||
|- | |- | ||
| | | CHAID || 카이제곱 검정(범주형 목표변수) 또는 F-검정(연속형 목표변수)을 이용하여 다지분리(Multiway Split) 수행 | ||
|- | |- | ||
| | | CART || 지니 지수(Gini Index, 범주형) 또는 분산의 감소량(연속형)을 이용하여 이진분리(Binary Split) 수행 | ||
|- | |- | ||
| | | CS5.0 || 명목형 목표 변수를 지원하는 가장 정확한 알고리즘으로, 다지분리(범주)및 이진분리(수치) 수행 | ||
| | |||
|} | |} | ||
==장단점== | == 장단점 == | ||
* 장점 | |||
*장점 | ** 이해하기 쉬운 모델 형태 | ||
**이해하기 쉬운 모델 형태 | ** 여러 변수의 영향도 파악 용이 | ||
**여러 변수의 영향도 파악 용이 | ** 계산복잡성 대비 높은 예측 성능 | ||
**계산복잡성 대비 높은 예측 성능 | ** 분류(classification)와 회귀(regression) 모두 가능 | ||
**분류(classification)와 회귀(regression) 모두 가능 | |||
::→ 범주나 연속형 수치 모두 예측 | ::→ 범주나 연속형 수치 모두 예측 | ||
* 단점 | |||
*단점 | ** 최적해를 보장하지 못함(Greedy 알고리즘) | ||
**최적해를 보장하지 못함(Greedy 알고리즘) | ** 비연속성 분류 | ||
**비연속성 분류 | ** 결정경계(decision boundary)가 데이터 축에 수직인 데이터에만 최적화 | ||
**결정경계(decision boundary)가 데이터 축에 수직인 데이터에만 최적화 |