결측치: Difference between revisions
From IT Wiki
No edit summary |
|||
(3 intermediate revisions by one other user not shown) | |||
Line 1: | Line 1: | ||
[[분류:데이터베이스]] | |||
;Missing Value | ;Missing Value | ||
== 종류 == | == 종류 == | ||
[[파일:결측치.png]] | |||
=== 완전 무작위 결측 === | === 완전 무작위 결측 === | ||
;MCAR; Missing Completely at Random | ;MCAR; Missing Completely at Random | ||
Line 13: | Line 15: | ||
=== 비 무작위 결측 === | === 비 무작위 결측 === | ||
;MNAR; Missing | ;MNAR; Missing Not At Random | ||
* 결과에 관련이 있는 변수 때문에 값이 누락됨 | * 결과에 관련이 있는 변수 때문에 값이 누락됨 | ||
* ex) 몸무게가 많이 나가는 사람은 몸무게를 적지 않을 확률이 높음, 결측치인 경우 몸무게가 평균 이상일 것이라고 예상 | * ex) 몸무게가 많이 나가는 사람은 몸무게를 적지 않을 확률이 높음, 결측치인 경우 몸무게가 평균 이상일 것이라고 예상 | ||
* ex) 소득이 적은 사람이 소득에 대한 결측값을 가지기 쉽다면(소득이 적은 사람들은 설문에 자기 소득을 밝히기 싫어한다고 가정). 이 데이터는 비무작위 결측이다. | |||
== 처리 방법 == | == 처리 방법 == |
Latest revision as of 10:57, 15 September 2021
- Missing Value
종류[edit | edit source]
완전 무작위 결측[edit | edit source]
- MCAR; Missing Completely at Random
- 결측치가 다른 변수들과 아무런 상관이 없음
- ex) 깜빡하고 데이터를 기입하지 않음, 무작위로 누락됨
무작위 결측[edit | edit source]
- MAR; Missing at Random
- 특정 변수에 관련되어 누락되었지만, 그 변수는 결과와 관련이 없음
- ex) 여자는 몸무게를 적지 않을 확률이 높지만, 여자인 것과 몸무게는 연관이 없음
비 무작위 결측[edit | edit source]
- MNAR; Missing Not At Random
- 결과에 관련이 있는 변수 때문에 값이 누락됨
- ex) 몸무게가 많이 나가는 사람은 몸무게를 적지 않을 확률이 높음, 결측치인 경우 몸무게가 평균 이상일 것이라고 예상
- ex) 소득이 적은 사람이 소득에 대한 결측값을 가지기 쉽다면(소득이 적은 사람들은 설문에 자기 소득을 밝히기 싫어한다고 가정). 이 데이터는 비무작위 결측이다.
처리 방법[edit | edit source]
합리적 접근법[edit | edit source]
- 결측값을 평균, 중앙값, 예상값 등으로 채워 넣는 방식
완전 제거법[edit | edit source]
- 결측값이 있는 데이터 전체를 삭제하는 방법
- ex) 몸무게 정보가 없는 사람의 데이터는 모두 삭제
다중 대체법[edit | edit source]
- 시뮬레이션을 통해 예측되는 최대한 정확한 값을 채워 넣는 방식
- ex) Mice, Amelia , MissForest, Hmisc, Mi