어텐션 메커니즘: 두 판 사이의 차이
IT 위키
(새 문서: 섬네일|어텐션 예시 어텐션 메커니즘(Attention mechanism)은 인공신경망에서 입력 시퀀스의 각 요소가 출력에 기여하는 중요도를 동적으로 계산하여 반영하는 기법이다. 원래는 신경망 기계번역(NMT)에서 제안되었으며, 이후 다양한 자연어 처리와 컴퓨터 비전 분야에서 널리 활용되고 있다. ==개요== 전통적인 시퀀스-투-시퀀스(seq2seq) 구조에서는...) |
(차이 없음)
|
2025년 9월 24일 (수) 11:17 판
어텐션 메커니즘(Attention mechanism)은 인공신경망에서 입력 시퀀스의 각 요소가 출력에 기여하는 중요도를 동적으로 계산하여 반영하는 기법이다. 원래는 신경망 기계번역(NMT)에서 제안되었으며, 이후 다양한 자연어 처리와 컴퓨터 비전 분야에서 널리 활용되고 있다.
개요
전통적인 시퀀스-투-시퀀스(seq2seq) 구조에서는 인코더가 입력 시퀀스 전체를 고정된 길이의 벡터로 요약하고, 디코더가 그 벡터를 바탕으로 출력을 생성하였다. 그러나 긴 문장의 경우 정보 손실이 발생하여 성능이 제한적이었다. 어텐션 메커니즘은 출력의 각 단계마다 입력 시퀀스 전체를 다시 참조하여, 관련성이 높은 부분에 더 높은 가중치를 주고 낮은 부분에는 낮은 가중치를 주는 방식으로 문제를 해결한다.[1]
원리
어텐션은 일반적으로 쿼리(Query), 키(Key), 값(Value)의 세 가지 요소를 사용한다.
- 쿼리(Query): 현재 디코더 상태와 같은 "집중해야 할 대상"
- 키(Key): 입력 시퀀스 각 요소의 표현
- 값(Value): 실제 참조할 입력의 정보
쿼리와 키를 비교하여 유사도를 계산한 후, 이를 확률적 가중치로 변환한다. 그 가중치를 값 벡터와 결합하여 최종적으로 어텐션 출력을 생성한다.
주요 유형
인코더-디코더 어텐션
- 출력(타겟) 시퀀스의 각 단어를 생성할 때, 입력(소스) 시퀀스의 모든 단어와의 관계를 계산한다. 기계 번역 모델에서 주로 사용된다.
셀프 어텐션(Self-Attention)
- 쿼리, 키, 값이 모두 동일한 입력 시퀀스에서 생성된다. 시퀀스 내부의 토큰 간 관계를 학습할 수 있어 트랜스포머 아키텍처의 핵심 구성 요소가 되었다.
멀티헤드 어텐션(Multi-Head Attention)
- 셀프 어텐션을 병렬로 여러 번 수행하여 다양한 표현 공간에서 관계를 학습한다. 최종적으로 여러 헤드의 출력을 결합해 더 풍부한 표현을 얻는다.
응용
어텐션 메커니즘은 처음에는 기계 번역에서 제안되었으나, 이후 다양한 분야에서 사용되고 있다.
- 기계 번역, 텍스트 요약, 질의응답 등 자연어 처리 전반
- 이미지 분류, 객체 탐지, 이미지 캡셔닝 등 컴퓨터 비전
- 음성 인식 및 합성
역사
- 2014년: Bahdanau 등이 신경망 기계 번역에서 처음 제안
- 2015년: Luong 등이 확장된 어텐션 방식을 제시
- 2017년: Vaswani 등이 트랜스포머 논문에서 셀프 어텐션과 멀티헤드 어텐션을 도입
- 이후 LLM(대규모 언어 모델)과 비전 트랜스포머 등 최신 모델의 핵심 기술로 발전
같이 보기
참고 문헌
- Bahdanau, D., Cho, K., Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
- Luong, M., Pham, H., Manning, C. D. (2015). Effective Approaches to Attention-based Neural Machine Translation. EMNLP.
- Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.
각주
- ↑ Bahdanau, D., Cho, K., Bengio, Y., "Neural Machine Translation by Jointly Learning to Align and Translate", 2014