대형 언어 모델

IT 위키

대형 언어 모델(大形言語模型, Large Language Model)은 방대한 양의 텍스트 데이터를 학습하여 자연어 처리(NLP) 작업을 수행할 수 있도록 설계된 인공 신경망 기반의 언어 모델이다. 이러한 모델은 단어, 문장, 문맥 간의 관계를 이해하고 생성할 수 있으며, 문서 요약, 번역, 질의응답, 대화 등 다양한 응용에 활용된다.

1 개요[편집 | 원본 편집]

대형 언어 모델은 수십억에서 수천억 개 이상의 매개변수(parameter)를 갖는 딥러닝 모델로, 주로 트랜스포머(Transformer) 아키텍처를 기반으로 한다. 일반적으로 자기회귀 방식(autoregressive) 또는 마스크 언어 모델링(masked language modeling) 방식으로 훈련된다.

2 역사[편집 | 원본 편집]

  • 2018년: OpenAI의 GPT, Google의 BERT 등 초기 트랜스포머 기반 모델 등장
  • 2020년: GPT-3(1750억 매개변수), T5, BART 등 등장하며 본격적인 대형화 시작
  • 2022년 이후: PaLM, LLaMA, Claude, GPT-4 등 수천억 매개변수 이상의 모델 개발

3 특징[편집 | 원본 편집]

  • 거대한 파라미터 수: 모델의 용량이 커질수록 복잡한 언어 패턴을 포착할 수 있음
  • 사전 학습과 미세 조정: 대규모 말뭉치로 사전 훈련한 후, 특정 작업에 맞게 튜닝
  • 제로샷/퓨샷 학습 능력: 예시가 없거나 소수일 때도 높은 성능을 발휘
  • 언어 생성 능력: 고품질의 자연스러운 텍스트 생성 가능

4 주요 활용[편집 | 원본 편집]

  • 대화형 인공지능: 챗봇, 가상 비서
  • 자동 문서 생성: 기사, 이메일, 보고서 작성
  • 질의응답 시스템: 고객 응대, 검색 엔진 강화
  • 기계 번역: 다양한 언어 간 자동 번역
  • 요약 및 정리: 긴 문서의 요약 생성

5 주요 모델[편집 | 원본 편집]

모델명 개발사 매개변수 수 출시 연도
GPT-3 OpenAI 1750억 2020년
GPT-4 OpenAI 비공개 2023년
BERT Google 3.4억 2018년
PaLM 2 Google 5400억 2023년
T5 Google 최대 110억 2020년
LLaMA 2 Meta 최대 650억 2023년
Claude 3 Anthropic 비공개 2024년
Mistral 7B Mistral AI 70억 2023년
Command-R Cohere 52억~122억 2024년
Yi 34B 01.AI 340억 2023년

6 기술적 도전과 윤리적 이슈[편집 | 원본 편집]

  • 막대한 계산 자원 및 에너지 소비
  • 데이터 편향 및 잘못된 정보 생성 위험
  • 프롬프트 조작 및 악의적 사용 가능성
  • 저작권 및 개인정보 문제

7 같이 보기[편집 | 원본 편집]

8 참고 문헌[편집 | 원본 편집]

  • Vaswani, A. et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.
  • Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
  • Bommasani, R. et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models.

9 각주[편집 | 원본 편집]