특성 공학

IT위키
이수민 (토론 | 기여)님의 2020년 4월 17일 (금) 21:59 판 (새 문서: 분류:데이터 과학분류:인공지능 ;Feature Engineering; 피처 엔지니어링; 특징 공학 ;인공지능 알고리즘에 적용, 빅데이터 분석 등을 위해...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
Feature Engineering; 피처 엔지니어링; 특징 공학
인공지능 알고리즘에 적용, 빅데이터 분석 등을 위해 데이터에 대한 도메인 지식을 활용하여 특성(Feature)를 만들어내는 과정

표현

  • 이렇게 문서화되거나 공식적으로 인용되는 경우가 아니라면 '특성 공학'이라는 말은 널리 쓰이지 않음
  • 실무에선 대부분 영문 그대로 '피처 엔지니어링'이라고 읽음
  • Feature이 개별적으로 해석될 때는 '특징'이라고 해석되는 경우가 더 많으나 '공학'과는 어울리지 않는 어감 때문인지 Feature Engineering은 '특성 공학'으로 더 많이 표기
    • 본 문서에선 가장 일반적으로 쓰이는 한글 표기를 차용하되, 통일성을 위해 Feature도 특성으로 표기

필요성

  • 과적합 방지: 불필요한 요소들이 분석에 사용될 경우 과적합(overfitting, 오버피팅)이 발생
  • 편향 방지: 부정확한 정보들이 분석에 적용될 경우 편향(bias)이 발생

특성 공학 기법

  • 차원 축소(Dimension Reduction)
    • 협의적으로는 아래서 설명하는 특성 추출을 차원 축소와 동일한 개념으로 이해
    • 광의적으로는 아래서 설명하는 두가지 기법을 아우르는 상위 개념
  • 특성 선정(Feature Selection)
    • 특성 랭킹(Feature Ranking) 또는 특성 중요도(Feature Importance)에 따라 선정
    • 분석가의 사전 배경 지식을 이용하거나, 랜덤 선정 및 성능 측정을 반복하는 방법 사용
  • 특성 추출(Feature Extraction)
    • 특성을 단순히 선택하는 것이 아니라 특성들의 조합으로 새로운 특성을 생성
    • PCA는 특성 추출 기법에 속함