Bag of Words: Difference between revisions

From IT Wiki
No edit summary
No edit summary
 
Line 1: Line 1:
[[분류:인공지능]]
[[분류:인공지능]]
;BoW; 단어 가방
;BoW; 단어 가방; 단어 봉투; 단어의 집합
;문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법
;문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법
* 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법
* 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법
Line 17: Line 17:
* 순서 무시: Home run과 Run home을 구분하지 못함
* 순서 무시: Home run과 Run home을 구분하지 못함
* 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨
* 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨
== 정제 ==
=== 어간 추출 ===
'''Stemming'''
예를 들어, “running”, “runs”, “ran” 같은 단어들을 공통된 형태인 “run”으로 변환하는 작업
=== 불용어 제거 ===
'''Stopword Removal'''
문맥에 큰 영향을 주지 않는 “a”, “the”, “and” 같은 자주 쓰이는 단어들을 제거하는 과정


== 대안 및 보완 ==
== 대안 및 보완 ==

Latest revision as of 07:45, 22 October 2024

BoW; 단어 가방; 단어 봉투; 단어의 집합
문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법
  • 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법

예시[edit | edit source]

  • 문장1: I love you, 문장2: You love me, 문장3: You and I love you and me
  • 구성 단어: I, Love, You, Me, And
  • 표현
    • I love you = [1,1,1,0,0]
    • You love me = [0,1,1,1,0]
    • You and I love you and me = [1,1,2,1,2]

한계점[edit | edit source]

  • Sparsity: 문장을 구성하는 단어들이 많아질 경우 계산 부하 급격히 증가
  • 부정확성: 단어의 구성만으로 분석한 결과는 엉뚱하게 나올 수 있음
  • 순서 무시: Home run과 Run home을 구분하지 못함
  • 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨

정제[edit | edit source]

어간 추출[edit | edit source]

Stemming

예를 들어, “running”, “runs”, “ran” 같은 단어들을 공통된 형태인 “run”으로 변환하는 작업

불용어 제거[edit | edit source]

Stopword Removal

문맥에 큰 영향을 주지 않는 “a”, “the”, “and” 같은 자주 쓰이는 단어들을 제거하는 과정

대안 및 보완[edit | edit source]

같이 보기[edit | edit source]