어텐션 메커니즘: 두 판 사이의 차이

IT 위키
(새 문서: 섬네일|어텐션 예시 어텐션 메커니즘(Attention mechanism)은 인공신경망에서 입력 시퀀스의 각 요소가 출력에 기여하는 중요도를 동적으로 계산하여 반영하는 기법이다. 원래는 신경망 기계번역(NMT)에서 제안되었으며, 이후 다양한 자연어 처리와 컴퓨터 비전 분야에서 널리 활용되고 있다. ==개요== 전통적인 시퀀스-투-시퀀스(seq2seq) 구조에서는...)
(차이 없음)

2025년 9월 24일 (수) 11:17 판

어텐션 예시

어텐션 메커니즘(Attention mechanism)은 인공신경망에서 입력 시퀀스의 각 요소가 출력에 기여하는 중요도를 동적으로 계산하여 반영하는 기법이다. 원래는 신경망 기계번역(NMT)에서 제안되었으며, 이후 다양한 자연어 처리와 컴퓨터 비전 분야에서 널리 활용되고 있다.

개요

전통적인 시퀀스-투-시퀀스(seq2seq) 구조에서는 인코더가 입력 시퀀스 전체를 고정된 길이의 벡터로 요약하고, 디코더가 그 벡터를 바탕으로 출력을 생성하였다. 그러나 긴 문장의 경우 정보 손실이 발생하여 성능이 제한적이었다. 어텐션 메커니즘은 출력의 각 단계마다 입력 시퀀스 전체를 다시 참조하여, 관련성이 높은 부분에 더 높은 가중치를 주고 낮은 부분에는 낮은 가중치를 주는 방식으로 문제를 해결한다.[1]

원리

어텐션은 일반적으로 쿼리(Query), 키(Key), 값(Value)의 세 가지 요소를 사용한다.

  • 쿼리(Query): 현재 디코더 상태와 같은 "집중해야 할 대상"
  • 키(Key): 입력 시퀀스 각 요소의 표현
  • 값(Value): 실제 참조할 입력의 정보

쿼리와 키를 비교하여 유사도를 계산한 후, 이를 확률적 가중치로 변환한다. 그 가중치를 값 벡터와 결합하여 최종적으로 어텐션 출력을 생성한다.

주요 유형

인코더-디코더 어텐션

  • 출력(타겟) 시퀀스의 각 단어를 생성할 때, 입력(소스) 시퀀스의 모든 단어와의 관계를 계산한다. 기계 번역 모델에서 주로 사용된다.

셀프 어텐션(Self-Attention)

  • 쿼리, 키, 값이 모두 동일한 입력 시퀀스에서 생성된다. 시퀀스 내부의 토큰 간 관계를 학습할 수 있어 트랜스포머 아키텍처의 핵심 구성 요소가 되었다.

멀티헤드 어텐션(Multi-Head Attention)

  • 셀프 어텐션을 병렬로 여러 번 수행하여 다양한 표현 공간에서 관계를 학습한다. 최종적으로 여러 헤드의 출력을 결합해 더 풍부한 표현을 얻는다.

응용

어텐션 메커니즘은 처음에는 기계 번역에서 제안되었으나, 이후 다양한 분야에서 사용되고 있다.

  • 기계 번역, 텍스트 요약, 질의응답 등 자연어 처리 전반
  • 이미지 분류, 객체 탐지, 이미지 캡셔닝 등 컴퓨터 비전
  • 음성 인식 및 합성

역사

  • 2014년: Bahdanau 등이 신경망 기계 번역에서 처음 제안
  • 2015년: Luong 등이 확장된 어텐션 방식을 제시
  • 2017년: Vaswani 등이 트랜스포머 논문에서 셀프 어텐션과 멀티헤드 어텐션을 도입
  • 이후 LLM(대규모 언어 모델)과 비전 트랜스포머 등 최신 모델의 핵심 기술로 발전

같이 보기

참고 문헌

  • Bahdanau, D., Cho, K., Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
  • Luong, M., Pham, H., Manning, C. D. (2015). Effective Approaches to Attention-based Neural Machine Translation. EMNLP.
  • Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.

각주

  1. Bahdanau, D., Cho, K., Bengio, Y., "Neural Machine Translation by Jointly Learning to Align and Translate", 2014