TF-IDF: 두 판 사이의 차이

IT위키
(새 문서: 분류:인공지능 ;Term Frequency - Inverse Document Frequency == 예시 === === TF Score === * a new car, used car, car review ** TF Score를 통해 car가 중요한 단어라...)
 
 
(사용자 3명의 중간 판 5개는 보이지 않습니다)
2번째 줄: 2번째 줄:
;Term Frequency - Inverse Document Frequency
;Term Frequency - Inverse Document Frequency


== 예시 ===
=== TF Score ===
=== TF Score ===
; TF = 단어의 출현 수 / 총 단어의 개수
* a new car, used car, car review
* a new car, used car, car review
** TF Score를 통해 car가 중요한 단어라는 것을 확인하였음
** TF Score를 통해 car가 중요한 단어라는 것을 확인하였음
14번째 줄: 14번째 줄:
| new || 1/7
| new || 1/7
|-
|-
| car || 3/7
| car || '''3/7'''
|-
|-
| used || 1/7
| used || 1/7
27번째 줄: 27번째 줄:
! 단어 !! TF Score
! 단어 !! TF Score
|-
|-
| a || 2/8
| a || '''2/8'''
|-
|-
| friend || 2/8
| friend || '''2/8'''
|-
|-
| in || 3/8
| in || 1/8
|-
|-
| need || 1/8
| need || 1/8
41번째 줄: 41번째 줄:


=== IDF ===
=== IDF ===
* Log (이 단어가 사용된 문장의 수 / 총 문장의 수+1)
; IDF = Log ( 총 문장의 수 / 이 단어가 사용된 문장의 수 + 1 )
* '이 단어가 사용된 문장의 수'에 1을 더하는 것은 0으로 나누는 것을 방지하기 위함
** 아래 예시에선 최소 1개씩 등장하므로 1을 더하지 않는다.
* TF에 IDF를 적용하면, a/the/in/is 와 같은 의미 없는 불용어를 희석시킬 수 있다.
* TF에 IDF를 적용하면, a/the/in/is 와 같은 의미 없는 불용어를 희석시킬 수 있다.
{| class="wikitable"
{| class="wikitable"
51번째 줄: 53번째 줄:
| new || 1/7 || Log(2/1) = 0.3 || 0.04
| new || 1/7 || Log(2/1) = 0.3 || 0.04
|-
|-
| car || 3/7 || Log(2/1) = 0.3 || '''0.13'''
| '''car''' || 3/7 || Log(2/1) = 0.3 || '''0.13'''
|-
|-
| used || 1/7 || Log(2/1) = 0.3 || 0.04
| used || 1/7 || Log(2/1) = 0.3 || 0.04
59번째 줄: 61번째 줄:
| a || 2/8 || Log(2/2) = 0 || 0
| a || 2/8 || Log(2/2) = 0 || 0
|-
|-
| friend || 2/8 || Log(2/1) = 0.3 || 0.08
| '''friend''' || 2/8 || Log(2/1) = 0.3 || '''0.08'''
|-
|-
| in || 1/8 || Log(2/1) = 0.3 || 0.04
| in || 1/8 || Log(2/1) = 0.3 || 0.04

2020년 2월 12일 (수) 00:43 기준 최신판

Term Frequency - Inverse Document Frequency

TF Score[편집 | 원본 편집]

TF = 단어의 출현 수 / 총 단어의 개수
  • a new car, used car, car review
    • TF Score를 통해 car가 중요한 단어라는 것을 확인하였음
단어 TF Score
a 1/7
new 1/7
car 3/7
used 1/7
review 1/7
  • a friend in need is a friend indeed
    • TF Score를 측정했는데 Friend와 a가 동일한 중요도로 산출됨
    • 이런 경우를 보완하기 위해 IDF 사용
단어 TF Score
a 2/8
friend 2/8
in 1/8
need 1/8
is 1/8
indeed 1/8

IDF[편집 | 원본 편집]

IDF = Log ( 총 문장의 수 / 이 단어가 사용된 문장의 수 + 1 )
  • '이 단어가 사용된 문장의 수'에 1을 더하는 것은 0으로 나누는 것을 방지하기 위함
    • 아래 예시에선 최소 1개씩 등장하므로 1을 더하지 않는다.
  • TF에 IDF를 적용하면, a/the/in/is 와 같은 의미 없는 불용어를 희석시킬 수 있다.
단어 TF Score IDF Score TF * IDF
a 1/7 Log(2/2) = 0 0
new 1/7 Log(2/1) = 0.3 0.04
car 3/7 Log(2/1) = 0.3 0.13
used 1/7 Log(2/1) = 0.3 0.04
review 1/7 Log(2/1) = 0.3 0.04
a 2/8 Log(2/2) = 0 0
friend 2/8 Log(2/1) = 0.3 0.08
in 1/8 Log(2/1) = 0.3 0.04
need 1/8 Log(2/1) = 0.3 0.04
is 1/8 Log(2/1) = 0.3 0.04
indeed 1/8 Log(2/1) = 0.3 0.04