양방향 언어 모델

IT 위키
인공무능 (토론 | 기여)님의 2025년 7월 8일 (화) 02:52 판 (새 문서: 양방향 언어 모델(Bidirectional Language Model, 雙方向言語モデル)은 문맥을 이해하기 위해 입력 시퀀스의 앞과 뒤 양쪽 정보를 동시에 고려하여 단어의 의미를 예측하는 방식의 언어 모델이다. ==개요== 양방향 언어 모델은 문장의 전체 구조를 고려해 더 풍부한 의미 정보를 추출할 수 있다는 장점이 있다. 이는 문맥의 앞뒤 정보를 모두 활용함으로써 자연어 처리 작업에...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

양방향 언어 모델(Bidirectional Language Model, 雙方向言語モデル)은 문맥을 이해하기 위해 입력 시퀀스의 앞과 뒤 양쪽 정보를 동시에 고려하여 단어의 의미를 예측하는 방식의 언어 모델이다.

개요[편집 | 원본 편집]

양방향 언어 모델은 문장의 전체 구조를 고려해 더 풍부한 의미 정보를 추출할 수 있다는 장점이 있다. 이는 문맥의 앞뒤 정보를 모두 활용함으로써 자연어 처리 작업에서 더 나은 성능을 보인다. 주요한 활용 분야는 문장 이해, 질의응답, 개체명 인식 등이다.

작동 원리[편집 | 원본 편집]

양방향 언어 모델은 문장을 왼쪽에서 오른쪽으로 읽는 순방향 모델과 오른쪽에서 왼쪽으로 읽는 역방향 모델을 결합하여 단어의 의미를 예측한다. 일반적으로 두 방향의 출력 벡터를 결합하거나 평균 내어 하나의 표현으로 만든다.

대표적인 모델[편집 | 원본 편집]

  • BERT (Bidirectional Encoder Representations from Transformers)
  • RoBERTa
  • ALBERT
  • ELECTRA
  • ERNIE

장점과 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

  • 문맥의 전후 정보를 동시에 활용하여 이해력이 뛰어나다
  • 문장 이해 및 분류 작업에서 높은 성능을 보인다

한계[편집 | 원본 편집]

  • 생성 작업에는 부적합하거나 제한이 있다
  • 훈련 및 추론 구조가 복잡할 수 있다

응용 분야[편집 | 원본 편집]

  • 문장 분류
  • 감정 분석
  • 질의응답 시스템
  • 개체명 인식
  • 의미역 결정

자기회귀 언어 모델과의 비교[편집 | 원본 편집]

직관적으로 이해하자면 아래와 같다.

  • BERT는 아래처럼 중간에 가려진 단어를 맞히는 식이다.

I love [MASK] learning. → 정답: deep

  • GPT는 앞만 보고 다음 단어를 순서대로 생성한다.

Input: I love deep   → Predict: learning

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proceedings of NAACL-HLT.

각주[편집 | 원본 편집]