데이터 전처리: 두 판 사이의 차이
IT위키
편집 요약 없음 |
잔글 (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로) |
||
(사용자 3명의 중간 판 3개는 보이지 않습니다) | |||
1번째 줄: | 1번째 줄: | ||
[[분류:데이터 | [[분류:데이터 과학]] | ||
;Data Preprocessing | ;Data Preprocessing | ||
;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위 | ;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위 | ||
== 데이터 전처리 부담 == | |||
* 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용<ref>[http://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#16ece2467f75 Forbes에서 인용한 CrowdFlower의 설문 결과]</ref> | |||
== 유형 == | == 유형 == | ||
8번째 줄: | 11번째 줄: | ||
** [[결측치]] 처리 | ** [[결측치]] 처리 | ||
** 노이즈 제거 | ** 노이즈 제거 | ||
** 오타 처리 | |||
** 개행문자 등 특수문자 처리 | |||
* '''데이터 통일''' | * '''데이터 통일''' | ||
** 메타 데이터 조정: 칼럼명 통일 | ** 메타 데이터 조정: 칼럼명 통일 | ||
17번째 줄: | 22번째 줄: | ||
** 암호화: [[동형암호]] | ** 암호화: [[동형암호]] | ||
** 민감속성 제거 | ** 민감속성 제거 | ||
== 참고 문헌 == |
2020년 5월 7일 (목) 00:07 기준 최신판
- Data Preprocessing
- 데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위
데이터 전처리 부담[편집 | 원본 편집]
- 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용[1]
유형[편집 | 원본 편집]
- 데이터 품질 향상
- 이상치 처리
- 결측치 처리
- 노이즈 제거
- 오타 처리
- 개행문자 등 특수문자 처리
- 데이터 통일
- 메타 데이터 조정: 칼럼명 통일
- 데이터 형태 조정: Data Type, Datetime Type, 원핫 인코딩
- 연계 정보 조정: 불필요 칼럼 삭제, 칼럼 추가 등
- 개인정보 보호