익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
데이터 전처리
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
Itwiki
(
토론
|
기여
)
님의 2020년 5월 7일 (목) 00:07 판
(문자열 찾아 바꾸기 - "
분류:데이터/통계학
" 문자열을 "
분류:데이터 과학
" 문자열로)
(
차이
)
← 이전 판
| 최신판 (차이) | 다음 판 → (차이)
Data Preprocessing
데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위
데이터 전처리 부담
데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용
[1]
유형
데이터 품질 향상
이상치 처리
결측치
처리
노이즈 제거
오타 처리
개행문자 등 특수문자 처리
데이터 통일
메타 데이터 조정: 칼럼명 통일
데이터 형태 조정: Data Type, Datetime Type,
원핫 인코딩
연계 정보 조정: 불필요 칼럼 삭제, 칼럼 추가 등
개인정보 보호
노이즈 추가:
차분 프라이버시
식별자 제거:
개인정보 비식별화
암호화:
동형암호
민감속성 제거
참고 문헌
↑
Forbes에서 인용한 CrowdFlower의 설문 결과
분류
:
데이터 과학
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
이 문서 인용하기
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
인쇄용 판
고유 링크
문서 정보
문서 기록
분류 목록
분류 목록
데이터 과학