양방향 언어 모델
IT 위키
양방향 언어 모델(Bidirectional Language Model, 雙方向言語モデル)은 문맥을 이해하기 위해 입력 시퀀스의 앞과 뒤 양쪽 정보를 동시에 고려하여 단어의 의미를 예측하는 방식의 언어 모델이다.
개요[편집 | 원본 편집]
양방향 언어 모델은 문장의 전체 구조를 고려해 더 풍부한 의미 정보를 추출할 수 있다는 장점이 있다. 이는 문맥의 앞뒤 정보를 모두 활용함으로써 자연어 처리 작업에서 더 나은 성능을 보인다. 주요한 활용 분야는 문장 이해, 질의응답, 개체명 인식 등이다.
작동 원리[편집 | 원본 편집]
양방향 언어 모델은 문장을 왼쪽에서 오른쪽으로 읽는 순방향 모델과 오른쪽에서 왼쪽으로 읽는 역방향 모델을 결합하여 단어의 의미를 예측한다. 일반적으로 두 방향의 출력 벡터를 결합하거나 평균 내어 하나의 표현으로 만든다.
대표적인 모델[편집 | 원본 편집]
- BERT (Bidirectional Encoder Representations from Transformers)
- RoBERTa
- ALBERT
- ELECTRA
- ERNIE
장점과 한계[편집 | 원본 편집]
장점[편집 | 원본 편집]
- 문맥의 전후 정보를 동시에 활용하여 이해력이 뛰어나다
- 문장 이해 및 분류 작업에서 높은 성능을 보인다
한계[편집 | 원본 편집]
- 생성 작업에는 부적합하거나 제한이 있다
- 훈련 및 추론 구조가 복잡할 수 있다
응용 분야[편집 | 원본 편집]
- 문장 분류
- 감정 분석
- 질의응답 시스템
- 개체명 인식
- 의미역 결정
자기회귀 언어 모델과의 비교[편집 | 원본 편집]
직관적으로 이해하자면 아래와 같다.
- BERT는 아래처럼 중간에 가려진 단어를 맞히는 식이다.
I love [MASK] learning. → 정답: deep
- GPT는 앞만 보고 다음 단어를 순서대로 생성한다.
Input: I love deep → Predict: learning
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proceedings of NAACL-HLT.