트랜스포머 (인공지능)

IT 위키
인공무능 (토론 | 기여)님의 2025년 6월 15일 (일) 11:40 판 (새 문서: 트랜스포머(Transformer)는 어탠션 메커니즘에 기반한 딥러닝 모델 구조로, 2017년 구글 브레인의 Vaswani 등 연구진이 발표한 논문 "Attention is All You Need"에서 처음 제안되었다. 자연어 처리(NLP) 분야를 중심으로 발전하였으며, 이후 컴퓨터 비전, 음성 인식, 멀티모달 AI 등 다양한 영역에 활용되고 있다. ==개요== 트랜스포머는 기존의 순환 신경망(RNN)이나 합성곱 신경망(CNN)...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

트랜스포머(Transformer)는 어탠션 메커니즘에 기반한 딥러닝 모델 구조로, 2017년 구글 브레인의 Vaswani 등 연구진이 발표한 논문 "Attention is All You Need"에서 처음 제안되었다. 자연어 처리(NLP) 분야를 중심으로 발전하였으며, 이후 컴퓨터 비전, 음성 인식, 멀티모달 AI 등 다양한 영역에 활용되고 있다.

개요[편집 | 원본 편집]

트랜스포머는 기존의 순환 신경망(RNN)이나 합성곱 신경망(CNN) 구조의 한계를 극복하고, 모든 입력 시퀀스를 병렬로 처리할 수 있도록 설계되었다. 핵심 구성 요소인 Self-Attention은 각 단어(토큰)가 문맥 내 다른 단어들과 어떤 관계를 가지는지를 학습하여, 문맥을 반영한 표현을 생성할 수 있도록 한다.

트랜스포머는 이후 GPT, BERT, T5 등 다양한 언어 모델의 기반이 되었으며, 이들 모델은 각각 트랜스포머 구조를 응용하거나 변형한 형태로 구현되어 있다.

구조[편집 | 원본 편집]

트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성된다.

인코더[편집 | 원본 편집]

  • 입력 토큰에 위치 인코딩(Position Encoding)을 추가하여 임베딩 수행
  • 다층(Self-Attention + Feed-Forward Network) 구조를 통해 입력 문장의 표현 생성
  • 각 계층마다 잔차 연결(Residual Connection)과 Layer Normalization 포함

디코더[편집 | 원본 편집]

  • 마스크드(Self-Attention) 계층을 통해 이전 토큰까지만 참조
  • 인코더-디코더 어탠션 계층을 통해 인코더 출력을 활용
  • 출력 문장을 순차적으로 생성

핵심 구성 요소[편집 | 원본 편집]

  • Self-Attention: 입력 내 단어 간 관계를 학습하는 메커니즘
  • Multi-Head Attention: 서로 다른 의미 공간에서 병렬 어탠션 수행
  • Position Encoding: 순서를 고려하지 않는 어탠션의 한계를 보완
  • Feed-Forward Network: 비선형 변환 수행
  • Layer Normalization, Residual Connection

특징[편집 | 원본 편집]

  • 병렬 연산이 가능하여 학습 속도 향상
  • 장거리 문맥 의존성 처리에 효과적
  • 다양한 입력 형태(텍스트, 이미지 등)에 적용 가능
  • 모델 확장성과 일반화 능력 우수

활용[편집 | 원본 편집]

  • 기계 번역, 질의응답, 텍스트 생성, 요약 등 자연어 처리 작업
  • 컴퓨터 비전(예: ViT)
  • 멀티모달 모델(텍스트+이미지 등)
  • 사전학습 언어 모델(GPT, BERT, T5 등)의 기반 구조

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). "Attention is All You Need". Advances in Neural Information Processing Systems 30 (NeurIPS 2017).

각주[편집 | 원본 편집]