대형 언어 모델
IT 위키
대형 언어 모델(大形言語模型, Large Language Model)은 방대한 양의 텍스트 데이터를 학습하여 자연어 처리(NLP) 작업을 수행할 수 있도록 설계된 인공 신경망 기반의 언어 모델이다. 이러한 모델은 단어, 문장, 문맥 간의 관계를 이해하고 생성할 수 있으며, 문서 요약, 번역, 질의응답, 대화 등 다양한 응용에 활용된다.
1 개요[편집 | 원본 편집]
대형 언어 모델은 수십억에서 수천억 개 이상의 매개변수(parameter)를 갖는 딥러닝 모델로, 주로 트랜스포머(Transformer) 아키텍처를 기반으로 한다. 일반적으로 자기회귀 방식(autoregressive) 또는 마스크 언어 모델링(masked language modeling) 방식으로 훈련된다.
2 역사[편집 | 원본 편집]
- 2018년: OpenAI의 GPT, Google의 BERT 등 초기 트랜스포머 기반 모델 등장
- 2020년: GPT-3(1750억 매개변수), T5, BART 등 등장하며 본격적인 대형화 시작
- 2022년 이후: PaLM, LLaMA, Claude, GPT-4 등 수천억 매개변수 이상의 모델 개발
3 특징[편집 | 원본 편집]
- 거대한 파라미터 수: 모델의 용량이 커질수록 복잡한 언어 패턴을 포착할 수 있음
- 사전 학습과 미세 조정: 대규모 말뭉치로 사전 훈련한 후, 특정 작업에 맞게 튜닝
- 제로샷/퓨샷 학습 능력: 예시가 없거나 소수일 때도 높은 성능을 발휘
- 언어 생성 능력: 고품질의 자연스러운 텍스트 생성 가능
4 주요 활용[편집 | 원본 편집]
- 대화형 인공지능: 챗봇, 가상 비서
- 자동 문서 생성: 기사, 이메일, 보고서 작성
- 질의응답 시스템: 고객 응대, 검색 엔진 강화
- 기계 번역: 다양한 언어 간 자동 번역
- 요약 및 정리: 긴 문서의 요약 생성
5 주요 모델[편집 | 원본 편집]
모델명 | 개발사 | 매개변수 수 | 출시 연도 |
---|---|---|---|
GPT-3 | OpenAI | 1750억 | 2020년 |
GPT-4 | OpenAI | 비공개 | 2023년 |
BERT | 3.4억 | 2018년 | |
PaLM 2 | 5400억 | 2023년 | |
T5 | 최대 110억 | 2020년 | |
LLaMA 2 | Meta | 최대 650억 | 2023년 |
Claude 3 | Anthropic | 비공개 | 2024년 |
Mistral 7B | Mistral AI | 70억 | 2023년 |
Command-R | Cohere | 52억~122억 | 2024년 |
Yi 34B | 01.AI | 340억 | 2023년 |
6 기술적 도전과 윤리적 이슈[편집 | 원본 편집]
- 막대한 계산 자원 및 에너지 소비
- 데이터 편향 및 잘못된 정보 생성 위험
- 프롬프트 조작 및 악의적 사용 가능성
- 저작권 및 개인정보 문제
7 같이 보기[편집 | 원본 편집]
8 참고 문헌[편집 | 원본 편집]
- Vaswani, A. et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.
- Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
- Bommasani, R. et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models.