Bag of Words: Difference between revisions
From IT Wiki
(새 문서: 분류:인공지능 ;BoW; 단어 가방 ;문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법 * 문장을 기반으로 기계학습을 수행할 때...) |
No edit summary |
||
(2 intermediate revisions by one other user not shown) | |||
Line 1: | Line 1: | ||
[[분류:인공지능]] | [[분류:인공지능]] | ||
;BoW; 단어 가방 | ;BoW; 단어 가방; 단어 봉투; 단어의 집합 | ||
;문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법 | ;문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법 | ||
* 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법 | * 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법 | ||
== 예시 == | == 예시 == | ||
* | * '''문장'''1: I love you, '''문장2''': You love me, '''문장3''': You and I love you and me | ||
* 구성 단어: I, Love, You, Me, And | * '''구성 단어''': I, Love, You, Me, And | ||
* '''표현''' | * '''표현''' | ||
** I love you = [1,1,1,0,0] | ** I love you = [1,1,1,0,0] | ||
Line 17: | Line 17: | ||
* 순서 무시: Home run과 Run home을 구분하지 못함 | * 순서 무시: Home run과 Run home을 구분하지 못함 | ||
* 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨 | * 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨 | ||
== 정제 == | |||
=== 어간 추출 === | |||
'''Stemming''' | |||
예를 들어, “running”, “runs”, “ran” 같은 단어들을 공통된 형태인 “run”으로 변환하는 작업 | |||
=== 불용어 제거 === | |||
'''Stopword Removal''' | |||
문맥에 큰 영향을 주지 않는 “a”, “the”, “and” 같은 자주 쓰이는 단어들을 제거하는 과정 | |||
== 대안 및 보완 == | |||
* [[RNN]] | |||
* [[워드 임베딩]] | |||
* [[N-Gram]] | |||
* [[TF-IDF]] | |||
== 같이 보기 == | |||
* [[자연어 처리]] |
Latest revision as of 07:45, 22 October 2024
- BoW; 단어 가방; 단어 봉투; 단어의 집합
- 문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법
- 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법
예시[edit | edit source]
- 문장1: I love you, 문장2: You love me, 문장3: You and I love you and me
- 구성 단어: I, Love, You, Me, And
- 표현
- I love you = [1,1,1,0,0]
- You love me = [0,1,1,1,0]
- You and I love you and me = [1,1,2,1,2]
한계점[edit | edit source]
- Sparsity: 문장을 구성하는 단어들이 많아질 경우 계산 부하 급격히 증가
- 부정확성: 단어의 구성만으로 분석한 결과는 엉뚱하게 나올 수 있음
- 순서 무시: Home run과 Run home을 구분하지 못함
- 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨
정제[edit | edit source]
어간 추출[edit | edit source]
Stemming
예를 들어, “running”, “runs”, “ran” 같은 단어들을 공통된 형태인 “run”으로 변환하는 작업
불용어 제거[edit | edit source]
Stopword Removal
문맥에 큰 영향을 주지 않는 “a”, “the”, “and” 같은 자주 쓰이는 단어들을 제거하는 과정