탐색적 데이터 분석

IT위키
인쇄용 판은 더 이상 지원되지 않으며 렌더링 오류가 있을 수 있습니다. 브라우저 북마크를 업데이트해 주시고 기본 브라우저 인쇄 기능을 대신 사용해 주십시오.
Exploratory Data Analysis; EDA
통계적 가설 검정 등의 기존 데이터 분석과 달리, 가설이나 뚜렷한 목적 없이 데이터에 숨겨진 의미, 인지하지 못했던 가치를 파악하기 위해 탐색적으로 데이터를 분석하는 과정
  • 벨연구소의 수학자인 존 튜키는 확증적 데이터 분석과는 대조적인 EDA를 개발

도구

  • 도표(plot)
  • 그래프(graph)
  • 요약통계(summary statistics)

접근법

아래 행위를 반복한다.
  • 1. 데이터에 대한 질문&문제 만들기
  • 2. 데이터를 시각화하고, 변환하고, 모델링하여 그 질문&문제에 대한 답을 찾아보기
  • 3. 찾는 과정에서 배운 것들을 토대로 다시 질문을 다듬고 또 다른 질문&문제 만들기

탐색

  • 모든 변수의 분포를 도표화
  • 시계열 데이터를 도표화
  • 산점도 행렬을 이용하여 변수들의 대응 관계를 파악
  • 모든 변수의 요약통계를 생성

발견

  • 데이터에 대한 인사이트
  • 데이터의 가치와 활용 목표에 대한 발견
  • 예상치 못했던 관계성
  • 미래 예측 등

참고 문헌