BERT: 두 판 사이의 차이

IT위키
편집 요약 없음
편집 요약 없음
 
7번째 줄: 7번째 줄:
== 특징 ==
== 특징 ==
* RNN을 사용하지 않는 Attention 모델
* RNN을 사용하지 않는 Attention 모델
* 계산 cost가 매우 큰 모델
* 장점
** 언어 이해의 우수성
* 단점
** 계산 cost가 매우 큰 모델
 
=== 활성화 함수 ===
;ReLU 보다 부드러운 형태인 GELU 적용
* 음수에 대한 미분이 가능
[[파일:GELU.png|300px]]


== 주요 기술 ==
== 주요 기술 ==
14번째 줄: 22번째 줄:
** ex) playing, coming, loving → ##ing
** ex) playing, coming, loving → ##ing
** ex) 서울특별시, 세종특별시, 성남시, 안양시 → ##특별시, ##시
** ex) 서울특별시, 세종특별시, 성남시, 안양시 → ##특별시, ##시
* Multi-Head Attention
* Masked Attention

2019년 12월 30일 (월) 16:43 기준 최신판

Bidirectional Encoder Representations from Transformers
자연어 처리 언어 모델

BERT 아키텍처.jpeg

특징[편집 | 원본 편집]

  • RNN을 사용하지 않는 Attention 모델
  • 장점
    • 언어 이해의 우수성
  • 단점
    • 계산 cost가 매우 큰 모델

활성화 함수[편집 | 원본 편집]

ReLU 보다 부드러운 형태인 GELU 적용
  • 음수에 대한 미분이 가능

GELU.png

주요 기술[편집 | 원본 편집]

  • WordPiece tokenizing
    • 접두사, 접미사를 구분
    • ex) playing, coming, loving → ##ing
    • ex) 서울특별시, 세종특별시, 성남시, 안양시 → ##특별시, ##시
  • Multi-Head Attention
  • Masked Attention