양방향 언어 모델: 두 판 사이의 차이

IT 위키

2025년 7월 8일 (화) 02:52 기준 최신판

양방향 언어 모델(Bidirectional Language Model, 雙方向言語モデル)은 문맥을 이해하기 위해 입력 시퀀스의 앞과 뒤 양쪽 정보를 동시에 고려하여 단어의 의미를 예측하는 방식의 언어 모델이다.

개요[편집 | 원본 편집]

양방향 언어 모델은 문장의 전체 구조를 고려해 더 풍부한 의미 정보를 추출할 수 있다는 장점이 있다. 이는 문맥의 앞뒤 정보를 모두 활용함으로써 자연어 처리 작업에서 더 나은 성능을 보인다. 주요한 활용 분야는 문장 이해, 질의응답, 개체명 인식 등이다.

작동 원리[편집 | 원본 편집]

양방향 언어 모델은 문장을 왼쪽에서 오른쪽으로 읽는 순방향 모델과 오른쪽에서 왼쪽으로 읽는 역방향 모델을 결합하여 단어의 의미를 예측한다. 일반적으로 두 방향의 출력 벡터를 결합하거나 평균 내어 하나의 표현으로 만든다.

대표적인 모델[편집 | 원본 편집]

BERT (Bidirectional Encoder Representations from Transformers)
RoBERTa
ALBERT
ELECTRA
ERNIE

장점과 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

문맥의 전후 정보를 동시에 활용하여 이해력이 뛰어나다
문장 이해 및 분류 작업에서 높은 성능을 보인다

한계[편집 | 원본 편집]

생성 작업에는 부적합하거나 제한이 있다
훈련 및 추론 구조가 복잡할 수 있다

응용 분야[편집 | 원본 편집]

문장 분류
감정 분석
질의응답 시스템
개체명 인식
의미역 결정

자기회귀 언어 모델과의 비교[편집 | 원본 편집]

직관적으로 이해하자면 아래와 같다.

BERT는 아래처럼 중간에 가려진 단어를 맞히는 식이다.

I love [MASK] learning. → 정답: deep

GPT는 앞만 보고 다음 단어를 순서대로 생성한다.

Input: I love deep → Predict: learning

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proceedings of NAACL-HLT.

각주[편집 | 원본 편집]

원본 주소 "https://itwiki.kr/index.php?title=양방향_언어_모델&oldid=41096"