N-Gram: 두 판 사이의 차이

IT위키
(새 문서: 분류:인공지능분류:데이터 분석 ;단어를 특정 글자 수, 단어 수 기준으로 묶어서 분석하는 방법 == 예시 == === 1-gram === ;Unigram 문장을...)
 
잔글 (문자열 찾아 바꾸기 - "분류:데이터 분석" 문자열을 "분류:데이터/통계학" 문자열로)
1번째 줄: 1번째 줄:
[[분류:인공지능]][[분류:데이터 분석]]
[[분류:인공지능]][[분류:데이터/통계학]]
;단어를 특정 글자 수, 단어 수 기준으로 묶어서 분석하는 방법
;단어를 특정 글자 수, 단어 수 기준으로 묶어서 분석하는 방법



2020년 3월 8일 (일) 16:16 판

단어를 특정 글자 수, 단어 수 기준으로 묶어서 분석하는 방법

예시

1-gram

Unigram

문장을 1의 단위로 잘라서 분석

  • I Love You
  • 문자 레벨: I, , L, o, v, e, , Y, o, u
  • 단어 레벨: I, Love, You

2-gram

Bigram

문장을 2의 단위로 잘라서 분석

  • I Love You
  • 문자 레벨: I, I , L, Lo, ov, ve, e , Y, Yo, ou
  • 단어 레벨: I Love, Love You

3-gram

Trigram

문장을 3의 단위로 잘라서 분석

  • I Love You
  • 문자 레벨: I L, Lo, Lov, ove, ve , e Y, Yo, You
  • 단어 레벨: I Love You

활용

  • Bag of Words의 단어 순서 무시 문제 극복
  • 다음 단어 예측
  • 문장 자동 완성
  • 오타 발견