Attention is All You Need (논문)

"Attention is All You Need"는 2017년 Google Brain 소속 연구진이 발표한 딥러닝 논문으로, 트랜스포머(Transformer)라는 새로운 신경망 아키텍처를 제안하였다. 이 논문은 기존의 순환 신경망(RNN) 및 합성곱 신경망(CNN) 구조를 대체할 수 있는 병렬 처리 기반 구조를 소개하며, 자연어 처리(NLP) 분야에서 혁신적인 전환점을 제공하였다.

개요[편집 | 원본 편집]

논문은 순차적 구조 없이도 시퀀스 데이터를 효과적으로 학습할 수 있는 어탠션 메커니즘 기반 모델인 트랜스포머를 제안한다. 이 구조는 전체 입력 시퀀스를 한 번에 처리하면서 문맥 간의 의존성을 효율적으로 포착할 수 있으며, 이후 BERT, GPT 등 다양한 사전 학습 언어 모델의 기반이 되었다.

발표 정보[편집 | 원본 편집]

발표 연도: 2017년
학회: NeurIPS (Neural Information Processing Systems)
저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
소속: Google Brain, Google Research

주요 기여[편집 | 원본 편집]

트랜스포머 모델 구조 제안: 순환 구조 없이 어탠션만으로 시퀀스를 처리
셀프 어탠션(Self-Attention) 및 멀티-헤드 어탠션(Multi-Head Attention) 도입
위치 인코딩(Position Encoding)으로 순서 정보 보완
기계 번역 벤치마크(WMT 2014 English-German 등)에서 당시 최고 성능 달성

모델 구조[편집 | 원본 편집]

논문에서 제안된 트랜스포머는 인코더와 디코더 구조로 구성되어 있다.

인코더: 입력 시퀀스를 처리하여 문맥 임베딩 생성
디코더: 인코더 출력을 기반으로 출력 시퀀스를 생성
핵심 연산: Self-Attention, Position-wise Feed-Forward Network, Residual Connection, Layer Normalization 등

영향[편집 | 원본 편집]

BERT, GPT, T5, ViT 등 후속 모델들의 기반 구조로 채택
자연어 처리, 컴퓨터 비전, 음성 인식 등 다양한 분야에 트랜스포머 응용
병렬 처리 기반 학습으로 대규모 데이터 및 모델 학습 가능성 확장

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).

각주[편집 | 원본 편집]

익명 사용자

검색

Attention is All You Need (논문)

이름공간

더 보기

문서 행위

목차

개요[편집 | 원본 편집]

발표 정보[편집 | 원본 편집]

주요 기여[편집 | 원본 편집]

모델 구조[편집 | 원본 편집]

영향[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

Attention is All You Need (논문)

개요[편집 | 원본 편집]

발표 정보[편집 | 원본 편집]

주요 기여[편집 | 원본 편집]

모델 구조[편집 | 원본 편집]

영향[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록