토론:탐색적 데이터 분석

IT위키

4R 관련[원본 편집]

  • EDA의 4가지 주제(4R)을 넣어야 할지 말아야 할지 고민입니다.
  • 여기저기 블로그, 책 등에서 유사한 내용으로 인용은 되고 있으나 출처가 불분명합니다.
  • 공신력 있는 출처가 있는 것인지, 출처를 아시는 분 있으면 말씀해주세요.

4가지 주제[원본 편집]

  • 저항성(Resistance)
    • 자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 즉 자료의 일부가 파손되었을 때 영향을 적게 받는 성질
    • 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
  • 잔차의 해석(Residual)
    • 잔차란 관찰 값들이 주경향으로부터 얼마나 벗어났는 지를 나타내는 정도
    • 잔차를 계산하여 데이터의 일반적인 양상과 다른 부분을 탐지
  • 자료의 재표현(Re-expression)
    • 데이터분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그변환, 제곱근변환, 역수변환)로 바꾸는 것
    • 분포의 선형성, 분산의 안정성, 관련변수의 가법성, 분포의 대칭성 등 데이터 구조파악과 해석에 도움
  • 자료의 현시성(Graphical Respresentation)
    • 자료의 그래프에 의한 표현
    • 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악
    • EDA에서는 다양한 그래프의 적성법들 이용