워드 임베딩: 두 판 사이의 차이

IT위키
편집 요약 없음
잔글 (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로)
 
(사용자 2명의 중간 판 3개는 보이지 않습니다)
1번째 줄: 1번째 줄:
[[분류:인공지능]][[분류:데이터 분석]]
[[분류:인공지능]][[분류:데이터 과학]]
;Word Embedding
;Word Embedding
문장 분석 시 단어를 표현함에 있어서 유사도를 부여하는 벡터 표현법
문장 분석 시 단어를 표현함에 있어서 유사도를 부여하는 벡터 표현법
7번째 줄: 7번째 줄:
* 소프트 맥스: 유사도를 산출한 임베딩 값을 통해 유사 단어 분류
* 소프트 맥스: 유사도를 산출한 임베딩 값을 통해 유사 단어 분류
* 표현: 유사 단어를 그래프나 수치로 표현
* 표현: 유사 단어를 그래프나 수치로 표현
== 장단점 ==
* 장점
** 단어간의 유사도 측정에 용이
** 단어간의 관계 파악에 유리
** 벡터 연산을 통한 추론이 가능
* 단점
** 단어의 Subword 정보 인식 불가
*** ex) 서울'''지하철''', 대구'''지하철'''의 유사도 유추 불가
** OOV(Out of Vocabulary)에 적용 불가
*** 새로운 단어가 들어오면 새로 학습시켜야 함, 기존 모델 재활용 불가


== 같이 보기 ==
== 같이 보기 ==
* [[Word2Vec]]: 여러 기준으로 단어를 임베딩해주는 파이썬 도구
* [[Word2Vec]]: 여러 기준으로 단어를 임베딩해주는 파이썬 도구
* [[Fasttext]]: Facebook에서 공개한, Word2Vec보다 개선된 워드 임베딩 도구

2020년 5월 6일 (수) 23:38 기준 최신판

Word Embedding

문장 분석 시 단어를 표현함에 있어서 유사도를 부여하는 벡터 표현법

구성[편집 | 원본 편집]

  • 유사도 기준: 단어와 단어간 유사도를 부여할 기준. 거리나 문자 유사도 등
  • 소프트 맥스: 유사도를 산출한 임베딩 값을 통해 유사 단어 분류
  • 표현: 유사 단어를 그래프나 수치로 표현

장단점[편집 | 원본 편집]

  • 장점
    • 단어간의 유사도 측정에 용이
    • 단어간의 관계 파악에 유리
    • 벡터 연산을 통한 추론이 가능
  • 단점
    • 단어의 Subword 정보 인식 불가
      • ex) 서울지하철, 대구지하철의 유사도 유추 불가
    • OOV(Out of Vocabulary)에 적용 불가
      • 새로운 단어가 들어오면 새로 학습시켜야 함, 기존 모델 재활용 불가

같이 보기[편집 | 원본 편집]

  • Word2Vec: 여러 기준으로 단어를 임베딩해주는 파이썬 도구
  • Fasttext: Facebook에서 공개한, Word2Vec보다 개선된 워드 임베딩 도구