데이터 전처리: 두 판 사이의 차이

IT위키
(새 문서: 분류:데이터 분석 ;Data Preprocessing ;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위 == 유형 == * 데이터 정제 ** 이상치 처리 ** ...)
 
잔글 (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로)
 
(사용자 4명의 중간 판 4개는 보이지 않습니다)
1번째 줄: 1번째 줄:
[[분류:데이터 분석]]
[[분류:데이터 과학]]
;Data Preprocessing
;Data Preprocessing
;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위
;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위
== 데이터 전처리 부담 ==
* 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용<ref>[http://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#16ece2467f75 Forbes에서 인용한 CrowdFlower의 설문 결과]</ref>


== 유형 ==
== 유형 ==
* 데이터 정제
* '''데이터 품질 향상'''
** 이상치 처리
** 이상치 처리
** [[결측치]] 처리
** [[결측치]] 처리
** 노이즈 제거
** 노이즈 제거
* 개인정보 보호
** 오타 처리
** 개행문자 등 특수문자 처리
* '''데이터 통일'''
** 메타 데이터 조정: 칼럼명 통일
** 데이터 형태 조정: Data Type, Datetime Type, [[원핫 인코딩]]
** 연계 정보 조정: 불필요 칼럼 삭제, 칼럼 추가 등
* '''개인정보 보호'''
** 노이즈 추가: [[차분 프라이버시]]
** 노이즈 추가: [[차분 프라이버시]]
** 식별자 제거: [[개인정보 비식별화]]
** 식별자 제거: [[개인정보 비식별화]]
** 암호화: [[동형암호]]
** 암호화: [[동형암호]]
** 민감속석 제거
** 민감속성 제거
 
== 참고 문헌 ==

2020년 5월 7일 (목) 00:07 기준 최신판

Data Preprocessing
데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위

데이터 전처리 부담[편집 | 원본 편집]

  • 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용[1]

유형[편집 | 원본 편집]

  • 데이터 품질 향상
    • 이상치 처리
    • 결측치 처리
    • 노이즈 제거
    • 오타 처리
    • 개행문자 등 특수문자 처리
  • 데이터 통일
    • 메타 데이터 조정: 칼럼명 통일
    • 데이터 형태 조정: Data Type, Datetime Type, 원핫 인코딩
    • 연계 정보 조정: 불필요 칼럼 삭제, 칼럼 추가 등
  • 개인정보 보호

참고 문헌[편집 | 원본 편집]