어텐션 메커니즘: 두 판 사이의 차이

2025년 9월 24일 (수) 11:17 판

어텐션 예시

어텐션 메커니즘(Attention mechanism)은 인공신경망에서 입력 시퀀스의 각 요소가 출력에 기여하는 중요도를 동적으로 계산하여 반영하는 기법이다. 원래는 신경망 기계번역(NMT)에서 제안되었으며, 이후 다양한 자연어 처리와 컴퓨터 비전 분야에서 널리 활용되고 있다.

개요

전통적인 시퀀스-투-시퀀스(seq2seq) 구조에서는 인코더가 입력 시퀀스 전체를 고정된 길이의 벡터로 요약하고, 디코더가 그 벡터를 바탕으로 출력을 생성하였다. 그러나 긴 문장의 경우 정보 손실이 발생하여 성능이 제한적이었다. 어텐션 메커니즘은 출력의 각 단계마다 입력 시퀀스 전체를 다시 참조하여, 관련성이 높은 부분에 더 높은 가중치를 주고 낮은 부분에는 낮은 가중치를 주는 방식으로 문제를 해결한다.^[1]

원리

어텐션은 일반적으로 쿼리(Query), 키(Key), 값(Value)의 세 가지 요소를 사용한다.

쿼리(Query): 현재 디코더 상태와 같은 "집중해야 할 대상"
키(Key): 입력 시퀀스 각 요소의 표현
값(Value): 실제 참조할 입력의 정보

쿼리와 키를 비교하여 유사도를 계산한 후, 이를 확률적 가중치로 변환한다. 그 가중치를 값 벡터와 결합하여 최종적으로 어텐션 출력을 생성한다.

주요 유형

인코더-디코더 어텐션

출력(타겟) 시퀀스의 각 단어를 생성할 때, 입력(소스) 시퀀스의 모든 단어와의 관계를 계산한다. 기계 번역 모델에서 주로 사용된다.

셀프 어텐션(Self-Attention)

쿼리, 키, 값이 모두 동일한 입력 시퀀스에서 생성된다. 시퀀스 내부의 토큰 간 관계를 학습할 수 있어 트랜스포머 아키텍처의 핵심 구성 요소가 되었다.

멀티헤드 어텐션(Multi-Head Attention)

셀프 어텐션을 병렬로 여러 번 수행하여 다양한 표현 공간에서 관계를 학습한다. 최종적으로 여러 헤드의 출력을 결합해 더 풍부한 표현을 얻는다.

응용

어텐션 메커니즘은 처음에는 기계 번역에서 제안되었으나, 이후 다양한 분야에서 사용되고 있다.

기계 번역, 텍스트 요약, 질의응답 등 자연어 처리 전반
이미지 분류, 객체 탐지, 이미지 캡셔닝 등 컴퓨터 비전
음성 인식 및 합성

역사

2014년: Bahdanau 등이 신경망 기계 번역에서 처음 제안
2015년: Luong 등이 확장된 어텐션 방식을 제시
2017년: Vaswani 등이 트랜스포머 논문에서 셀프 어텐션과 멀티헤드 어텐션을 도입
이후 LLM(대규모 언어 모델)과 비전 트랜스포머 등 최신 모델의 핵심 기술로 발전

같이 보기

참고 문헌

Bahdanau, D., Cho, K., Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
Luong, M., Pham, H., Manning, C. D. (2015). Effective Approaches to Attention-based Neural Machine Translation. EMNLP.
Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.

각주

↑ Bahdanau, D., Cho, K., Bengio, Y., "Neural Machine Translation by Jointly Learning to Align and Translate", 2014

[1] Bahdanau, D., Cho, K., Bengio, Y., "Neural Machine Translation by Jointly Learning to Align and Translate", 2014

[1]

익명 사용자

검색

어텐션 메커니즘: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2025년 9월 24일 (수) 11:17 판

목차

개요

원리

주요 유형

응용

역사

같이 보기

참고 문헌

각주

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

어텐션 메커니즘: 두 판 사이의 차이

2025년 9월 24일 (수) 11:17 판

개요

원리

주요 유형

응용

역사

같이 보기

참고 문헌

각주

둘러보기

위키 도구

문서 도구

분류 목록