Attention is All You Need (논문)

IT 위키
인공무능 (토론 | 기여)님의 2025년 6월 15일 (일) 11:43 판 (새 문서: "Attention is All You Need"는 2017년 Google Brain 소속 연구진이 발표한 딥러닝 논문으로, 트랜스포머(Transformer)라는 새로운 신경망 아키텍처를 제안하였다. 이 논문은 기존의 순환 신경망(RNN) 및 합성곱 신경망(CNN) 구조를 대체할 수 있는 병렬 처리 기반 구조를 소개하며, 자연어 처리(NLP) 분야에서 혁신적인 전환점을 제공하였다. ==개요== 논문은 순차적 구조 없이도 시퀀스...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

"Attention is All You Need"는 2017년 Google Brain 소속 연구진이 발표한 딥러닝 논문으로, 트랜스포머(Transformer)라는 새로운 신경망 아키텍처를 제안하였다. 이 논문은 기존의 순환 신경망(RNN) 및 합성곱 신경망(CNN) 구조를 대체할 수 있는 병렬 처리 기반 구조를 소개하며, 자연어 처리(NLP) 분야에서 혁신적인 전환점을 제공하였다.

개요[편집 | 원본 편집]

논문은 순차적 구조 없이도 시퀀스 데이터를 효과적으로 학습할 수 있는 어탠션 메커니즘 기반 모델인 트랜스포머를 제안한다. 이 구조는 전체 입력 시퀀스를 한 번에 처리하면서 문맥 간의 의존성을 효율적으로 포착할 수 있으며, 이후 BERT, GPT 등 다양한 사전 학습 언어 모델의 기반이 되었다.

발표 정보[편집 | 원본 편집]

  • 발표 연도: 2017년
  • 학회: NeurIPS (Neural Information Processing Systems)
  • 저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
  • 소속: Google Brain, Google Research

주요 기여[편집 | 원본 편집]

  • 트랜스포머 모델 구조 제안: 순환 구조 없이 어탠션만으로 시퀀스를 처리
  • 셀프 어탠션(Self-Attention) 및 멀티-헤드 어탠션(Multi-Head Attention) 도입
  • 위치 인코딩(Position Encoding)으로 순서 정보 보완
  • 기계 번역 벤치마크(WMT 2014 English-German 등)에서 당시 최고 성능 달성

모델 구조[편집 | 원본 편집]

논문에서 제안된 트랜스포머는 인코더와 디코더 구조로 구성되어 있다.

  • 인코더: 입력 시퀀스를 처리하여 문맥 임베딩 생성
  • 디코더: 인코더 출력을 기반으로 출력 시퀀스를 생성
  • 핵심 연산: Self-Attention, Position-wise Feed-Forward Network, Residual Connection, Layer Normalization 등

영향[편집 | 원본 편집]

  • BERT, GPT, T5, ViT 등 후속 모델들의 기반 구조로 채택
  • 자연어 처리, 컴퓨터 비전, 음성 인식 등 다양한 분야에 트랜스포머 응용
  • 병렬 처리 기반 학습으로 대규모 데이터 및 모델 학습 가능성 확장

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).

각주[편집 | 원본 편집]