BERT: 두 판 사이의 차이

2019년 12월 30일 (월) 16:43 기준 최신판

WordPiece tokenizing
- 접두사, 접미사를 구분
- ex) playing, coming, loving → ##ing
- ex) 서울특별시, 세종특별시, 성남시, 안양시 → ##특별시, ##시
Multi-Head Attention
Masked Attention

@@ 3번째 줄: / 3번째 줄: @@
 ;[[자연어 처리]] 언어 모델
-== 구분 ==
+[[파일:BERT 아키텍처.jpeg|500px]]
-=== 규칙/지식 기반 접근법 ===
-;Symbolic Approach
-* [Now] [Weather] [What]
-* 무식한 방법이지만 현대 챗봇, 인공진공 스피커 등에서 가장 많이 적용되는 방법
-== 확률/통계 기반 접근법 ===
+== 특징 ==
-;Statistical Approach
+* RNN을 사용하지 않는 Attention 모델
-* TF-IDF
+* 장점
+** 언어 이해의 우수성
+* 단점
+** 계산 cost가 매우 큰 모델
-== 딥러닝 적용법 ==
+=== 활성화 함수 ===
-* 기존 접근법에 딥러닝 학습 적용
+;ReLU 보다 부드러운 형태인 GELU 적용
+* 음수에 대한 미분이 가능
+[[파일:GELU.png|300px]]
+== 주요 기술 ==
+* WordPiece tokenizing
+** 접두사, 접미사를 구분
+** ex) playing, coming, loving → ##ing
+** ex) 서울특별시, 세종특별시, 성남시, 안양시 → ##특별시, ##시
+* Multi-Head Attention
+* Masked Attention