자기회귀 언어 모델
IT 위키
자기회귀 언어 모델(Autoregressive Language Model, 自己回帰言語モデル)은 이전 시점의 단어(또는 토큰) 정보를 기반으로 다음 단어의 확률을 예측하는 방식의 언어 모델이다.
개요[편집 | 원본 편집]
자기회귀 언어 모델은 언어 생성에서 중요한 역할을 하며, 입력된 시퀀스의 앞부분을 기준으로 다음 단어를 순차적으로 예측한다. 이 방식은 시계열 데이터 처리에 적합하며, 자연어 처리 분야에서는 텍스트 생성, 기계 번역, 문서 요약 등에 활용된다.
작동 원리[편집 | 원본 편집]
자기회귀 언어 모델은 주어진 단어 시퀀스 x₁, x₂, ..., xₙ에 대해 다음과 같은 확률 분해를 수행한다:
P(x₁, x₂, ..., xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × ... × P(xₙ|x₁,...,xₙ₋₁)
이 식은 각 시점의 단어가 이전 단어들의 조건부 확률에 따라 예측된다는 것을 의미한다.
대표적인 모델[편집 | 원본 편집]
- GPT 시리즈 (OpenAI)
- Transformer 기반의 언어 생성 모델
- RNN 및 LSTM 기반의 초기 자기회귀 모델
- XLNet (자기회귀와 비자기회귀 방식을 혼합)
장점과 한계[편집 | 원본 편집]
장점[편집 | 원본 편집]
- 문장 생성 품질이 높고 문맥을 잘 반영한다
- 학습 및 추론 과정이 직관적이다
한계[편집 | 원본 편집]
- 병렬 처리가 어렵고 추론 속도가 느리다
- 장기 의존성 문제에 취약할 수 있다
응용 분야[편집 | 원본 편집]
- 자연어 생성 (텍스트 생성, 시나리오 작성 등)
- 대화형 인공지능
- 문서 자동 요약
- 기계 번역
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). "Attention is All You Need." Advances in Neural Information Processing Systems.
- Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). "Improving Language Understanding by Generative Pre-Training." OpenAI.