트랜스포머 (인공지능)

트랜스포머(Transformer)는 어탠션 메커니즘에 기반한 딥러닝 모델 구조로, 2017년 구글 브레인의 Vaswani 등 연구진이 발표한 논문 "Attention is All You Need"에서 처음 제안되었다. 자연어 처리(NLP) 분야를 중심으로 발전하였으며, 이후 컴퓨터 비전, 음성 인식, 멀티모달 AI 등 다양한 영역에 활용되고 있다.

개요[편집 | 원본 편집]

트랜스포머는 기존의 순환 신경망(RNN)이나 합성곱 신경망(CNN) 구조의 한계를 극복하고, 모든 입력 시퀀스를 병렬로 처리할 수 있도록 설계되었다. 핵심 구성 요소인 Self-Attention은 각 단어(토큰)가 문맥 내 다른 단어들과 어떤 관계를 가지는지를 학습하여, 문맥을 반영한 표현을 생성할 수 있도록 한다.

트랜스포머는 이후 GPT, BERT, T5 등 다양한 언어 모델의 기반이 되었으며, 이들 모델은 각각 트랜스포머 구조를 응용하거나 변형한 형태로 구현되어 있다.

구조[편집 | 원본 편집]

트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성된다.

인코더[편집 | 원본 편집]

입력 토큰에 위치 인코딩(Position Encoding)을 추가하여 임베딩 수행
다층(Self-Attention + Feed-Forward Network) 구조를 통해 입력 문장의 표현 생성
각 계층마다 잔차 연결(Residual Connection)과 Layer Normalization 포함

디코더[편집 | 원본 편집]

마스크드(Self-Attention) 계층을 통해 이전 토큰까지만 참조
인코더-디코더 어탠션 계층을 통해 인코더 출력을 활용
출력 문장을 순차적으로 생성

핵심 구성 요소[편집 | 원본 편집]

Self-Attention: 입력 내 단어 간 관계를 학습하는 메커니즘
Multi-Head Attention: 서로 다른 의미 공간에서 병렬 어탠션 수행
Position Encoding: 순서를 고려하지 않는 어탠션의 한계를 보완
Feed-Forward Network: 비선형 변환 수행
Layer Normalization, Residual Connection

특징[편집 | 원본 편집]

병렬 연산이 가능하여 학습 속도 향상
장거리 문맥 의존성 처리에 효과적
다양한 입력 형태(텍스트, 이미지 등)에 적용 가능
모델 확장성과 일반화 능력 우수

활용[편집 | 원본 편집]

기계 번역, 질의응답, 텍스트 생성, 요약 등 자연어 처리 작업
컴퓨터 비전(예: ViT)
멀티모달 모델(텍스트+이미지 등)
사전학습 언어 모델(GPT, BERT, T5 등)의 기반 구조

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). "Attention is All You Need". Advances in Neural Information Processing Systems 30 (NeurIPS 2017).

각주[편집 | 원본 편집]

익명 사용자

검색

트랜스포머 (인공지능)

이름공간

더 보기

문서 행위

목차

개요[편집 | 원본 편집]

구조[편집 | 원본 편집]

인코더[편집 | 원본 편집]

디코더[편집 | 원본 편집]

핵심 구성 요소[편집 | 원본 편집]

특징[편집 | 원본 편집]

활용[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

트랜스포머 (인공지능)

개요[편집 | 원본 편집]

구조[편집 | 원본 편집]

인코더[편집 | 원본 편집]

디코더[편집 | 원본 편집]

핵심 구성 요소[편집 | 원본 편집]

특징[편집 | 원본 편집]

활용[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록