Attention is All You Need (논문)
IT 위키
"Attention is All You Need"는 2017년 Google Brain 소속 연구진이 발표한 딥러닝 논문으로, 트랜스포머(Transformer)라는 새로운 신경망 아키텍처를 제안하였다. 이 논문은 기존의 순환 신경망(RNN) 및 합성곱 신경망(CNN) 구조를 대체할 수 있는 병렬 처리 기반 구조를 소개하며, 자연어 처리(NLP) 분야에서 혁신적인 전환점을 제공하였다.
개요[편집 | 원본 편집]
논문은 순차적 구조 없이도 시퀀스 데이터를 효과적으로 학습할 수 있는 어탠션 메커니즘 기반 모델인 트랜스포머를 제안한다. 이 구조는 전체 입력 시퀀스를 한 번에 처리하면서 문맥 간의 의존성을 효율적으로 포착할 수 있으며, 이후 BERT, GPT 등 다양한 사전 학습 언어 모델의 기반이 되었다.
발표 정보[편집 | 원본 편집]
- 발표 연도: 2017년
- 학회: NeurIPS (Neural Information Processing Systems)
- 저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
- 소속: Google Brain, Google Research
주요 기여[편집 | 원본 편집]
- 트랜스포머 모델 구조 제안: 순환 구조 없이 어탠션만으로 시퀀스를 처리
- 셀프 어탠션(Self-Attention) 및 멀티-헤드 어탠션(Multi-Head Attention) 도입
- 위치 인코딩(Position Encoding)으로 순서 정보 보완
- 기계 번역 벤치마크(WMT 2014 English-German 등)에서 당시 최고 성능 달성
모델 구조[편집 | 원본 편집]
논문에서 제안된 트랜스포머는 인코더와 디코더 구조로 구성되어 있다.
- 인코더: 입력 시퀀스를 처리하여 문맥 임베딩 생성
- 디코더: 인코더 출력을 기반으로 출력 시퀀스를 생성
- 핵심 연산: Self-Attention, Position-wise Feed-Forward Network, Residual Connection, Layer Normalization 등
영향[편집 | 원본 편집]
- BERT, GPT, T5, ViT 등 후속 모델들의 기반 구조로 채택
- 자연어 처리, 컴퓨터 비전, 음성 인식 등 다양한 분야에 트랜스포머 응용
- 병렬 처리 기반 학습으로 대규모 데이터 및 모델 학습 가능성 확장
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).