결측치: 두 판 사이의 차이

IT위키
편집 요약 없음
편집 요약 없음
13번째 줄: 13번째 줄:


=== 비 무작위 결측 ===
=== 비 무작위 결측 ===
;MNAR; Missing at Not Random
;MNAR; Missing Not At Random
* 결과에 관련이 있는 변수 때문에 값이 누락됨
* 결과에 관련이 있는 변수 때문에 값이 누락됨
* ex) 몸무게가 많이 나가는 사람은 몸무게를 적지 않을 확률이 높음, 결측치인 경우 몸무게가 평균 이상일 것이라고 예상
* ex) 몸무게가 많이 나가는 사람은 몸무게를 적지 않을 확률이 높음, 결측치인 경우 몸무게가 평균 이상일 것이라고 예상

2019년 12월 5일 (목) 23:41 판

Missing Value

종류

완전 무작위 결측

MCAR; Missing Completely at Random
  • 결측치가 다른 변수들과 아무런 상관이 없음
  • ex) 깜빡하고 데이터를 기입하지 않음, 무작위로 누락됨

무작위 결측

MAR; Missing at Random
  • 특정 변수에 관련되어 누락되었지만, 그 변수는 결과와 관련이 없음
  • ex) 여자는 몸무게를 적지 않을 확률이 높지만, 여자인 것과 몸무게는 연관이 없음

비 무작위 결측

MNAR; Missing Not At Random
  • 결과에 관련이 있는 변수 때문에 값이 누락됨
  • ex) 몸무게가 많이 나가는 사람은 몸무게를 적지 않을 확률이 높음, 결측치인 경우 몸무게가 평균 이상일 것이라고 예상

처리 방법

합리적 접근법

  • 결측값을 평균, 중앙값, 예상값 등으로 채워 넣는 방식

완전 제거법

  • 결측값이 있는 데이터 전체를 삭제하는 방법
  • ex) 몸무게 정보가 없는 사람의 데이터는 모두 삭제

다중 대체법

  • 시뮬레이션을 통해 예측되는 최대한 정확한 값을 채워 넣는 방식
  • ex) Mice, Amelia , MissForest, Hmisc, Mi