Bag of Words: 두 판 사이의 차이

2024년 10월 22일 (화) 07:45 기준 최신판

BoW; 단어 가방; 단어 봉투; 단어의 집합
문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법

문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법

예시[편집 | 원본 편집]

문장1: I love you, 문장2: You love me, 문장3: You and I love you and me
구성 단어: I, Love, You, Me, And
표현
- I love you = [1,1,1,0,0]
- You love me = [0,1,1,1,0]
- You and I love you and me = [1,1,2,1,2]

한계점[편집 | 원본 편집]

Sparsity: 문장을 구성하는 단어들이 많아질 경우 계산 부하 급격히 증가
부정확성: 단어의 구성만으로 분석한 결과는 엉뚱하게 나올 수 있음
순서 무시: Home run과 Run home을 구분하지 못함
정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨

정제[편집 | 원본 편집]

어간 추출[편집 | 원본 편집]

Stemming

예를 들어, “running”, “runs”, “ran” 같은 단어들을 공통된 형태인 “run”으로 변환하는 작업

불용어 제거[편집 | 원본 편집]

Stopword Removal

문맥에 큰 영향을 주지 않는 “a”, “the”, “and” 같은 자주 쓰이는 단어들을 제거하는 과정

대안 및 보완[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

자연어 처리

@@ 1번째 줄: / 1번째 줄: @@
 [[분류:인공지능]]
-;BoW; 단어 가방
+;BoW; 단어 가방; 단어 봉투; 단어의 집합
 ;문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법
 * 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법
 == 예시 ==
-* 문장1: I love you, 문장2: You love me, 문장3: You and I love you and me
+* '''문장'''1: I love you, '''문장2''': You love me, '''문장3''': You and I love you and me
-* 구성 단어: I, Love, You, Me, And
+* '''구성 단어''': I, Love, You, Me, And
 * '''표현'''
 ** I love you = [1,1,1,0,0]
@@ 17번째 줄: / 17번째 줄: @@
 * 순서 무시: Home run과 Run home을 구분하지 못함
 * 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨
+== 정제 ==
+=== 어간 추출 ===
+'''Stemming'''
+예를 들어, “running”, “runs”, “ran” 같은 단어들을 공통된 형태인 “run”으로 변환하는 작업
+=== 불용어 제거 ===
+'''Stopword Removal'''
+문맥에 큰 영향을 주지 않는 “a”, “the”, “and” 같은 자주 쓰이는 단어들을 제거하는 과정
+== 대안 및 보완 ==
+* [[RNN]]
+* [[워드 임베딩]]
+* [[N-Gram]]
+* [[TF-IDF]]
+== 같이 보기 ==
+* [[자연어 처리]]

익명 사용자

검색

Bag of Words: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2024년 10월 22일 (화) 07:45 기준 최신판

목차

예시[편집 | 원본 편집]

한계점[편집 | 원본 편집]

정제[편집 | 원본 편집]

어간 추출[편집 | 원본 편집]

불용어 제거[편집 | 원본 편집]

대안 및 보완[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

Bag of Words: 두 판 사이의 차이

2024년 10월 22일 (화) 07:45 기준 최신판

예시[편집 | 원본 편집]

한계점[편집 | 원본 편집]

정제[편집 | 원본 편집]

어간 추출[편집 | 원본 편집]

불용어 제거[편집 | 원본 편집]

대안 및 보완[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록