트랜스포머 블록 편집하기 (부분)

==구성 요소==
트랜스포머 블록은 일반적으로 다음 구성 요소들로 이루어져 있다:

'''Multi-Head Self-Attention'''

* 입력 벡터 집합에 대해 쿼리, 키, 값 행렬을 계산하고, 스케일된 닷프로덕트 어텐션을 머리별로 수행한 뒤 결합(concatenate)하고 다시 선형 사상으로 변환한다.  이 연산은 토큰 간의 관계를 파악하고 정보 흐름을 조절하는 역할을 한다.<ref>Vaswani et al., Attention Is All You Need, 2017</ref>  다중 머리를 이용하면 여러 표현 관점을 병렬로 학습할 수 있다.

'''Residual Connection + Layer Normalization (잔차 연결 + 층 정규화)'''

* 각 하위 구성 요소(예: attention, feed-forward)를 통과한 후 결과에 원래 입력을 더해주는 잔차 연결을 적용하고, 그 위에 layer normalization을 수행한다.  이를 통해 깊은 신경망에서의 그래디언트 흐름이 안정화되고 학습이 용이해진다.  설계에 따라 정규화를 입력 전에 수행하는 pre-norm 방식 또는 후에 수행하는 post-norm 방식이 있다.

'''Position-Wise Feed-Forward Network (위치별 피드포워드 네트워크)'''

* 각 토큰마다 동일한 2층(혹은 그 이상)의 완전연결 신경망을 적용하는 구성이다. 보통 활성화 함수(ReLU, GELU 등)를 사이에 두며, 중간 차원을 모델 차원보다 크게 설정하는 경우가 많다.