경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
편집을 취소할 수 있습니다.
이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 |
당신의 편집 |
1번째 줄: |
1번째 줄: |
| [[분류:데이터 과학]] | | [[분류:데이터 분석]] |
| ;Data Preprocessing | | ;Data Preprocessing |
| ;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위 | | ;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위 |
|
| |
| == 데이터 전처리 부담 ==
| |
| * 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용<ref>[http://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#16ece2467f75 Forbes에서 인용한 CrowdFlower의 설문 결과]</ref>
| |
|
| |
|
| == 유형 == | | == 유형 == |
| * '''데이터 품질 향상''' | | * 데이터 정제 |
| ** 이상치 처리 | | ** 이상치 처리 |
| ** [[결측치]] 처리 | | ** [[결측치]] 처리 |
| ** 노이즈 제거 | | ** 노이즈 제거 |
| ** 오타 처리 | | * 개인정보 보호 |
| ** 개행문자 등 특수문자 처리
| |
| * '''데이터 통일'''
| |
| ** 메타 데이터 조정: 칼럼명 통일
| |
| ** 데이터 형태 조정: Data Type, Datetime Type, [[원핫 인코딩]]
| |
| ** 연계 정보 조정: 불필요 칼럼 삭제, 칼럼 추가 등
| |
| * '''개인정보 보호'''
| |
| ** 노이즈 추가: [[차분 프라이버시]] | | ** 노이즈 추가: [[차분 프라이버시]] |
| ** 식별자 제거: [[개인정보 비식별화]] | | ** 식별자 제거: [[개인정보 비식별화]] |
| ** 암호화: [[동형암호]] | | ** 암호화: [[동형암호]] |
| ** 민감속성 제거 | | ** 민감속석 제거 |
| | |
| == 참고 문헌 ==
| |