비전 트랜스포머 편집하기 (부분)

==구성 요소 및 작동 원리==
#이미지 패치 분할 및 임베딩
#*입력 이미지를 H×W 크기, C 채널(RGB 등)의 배열로 본다.
#*P×P 크기의 패치들로 분할하고, 각 패치를 평탄화(flatten)한 뒤 선형 투영(linear projection)을 통해 고정 차원 임베딩 벡터로 변환한다.
#*패치의 순서를 알리기 위해 위치(position) 임베딩(position embedding)을 더한다. <ref>“ViT Architecture Overview”, Viso.ai, https://viso.ai/deep-learning/vision-transformer-vit</ref>
#클래스 토큰 추가
#*입력 시퀀스 앞에 특수 토큰 “[CLS]” 또는 유사 특수 토큰을 삽입한다.
#*이 토큰은 트랜스포머 인코더의 마지막 층 출력에서 전체 이미지 정보를 요약하는 용도로 사용된다. <ref>“ViT Documentation”, HuggingFace, https://huggingface.co/docs/transformers/en/model_doc/vit</ref>
#트랜스포머 인코더 블록
#*여러 개의 인코더 블록(transformer encoder layers)을 쌓는다.
#*각 블록은 멀티헤드 셀프 어텐션(multi-head self-attention), 피드포워드 네트워크(feed-forward network), 레이어 정규화(layer normalization), 잔차 연결(residual connections) 등을 포함한다. <ref>“An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”, arXiv:2010.11929</ref>
#분류 헤드 및 출력
#*인코더의 출력에서 클래스 토큰 벡터 또는 모든 패치 토큰의 집계(예: 평균 풀링(global average pooling))을 취한다.
#*이 벡터를 간단한 MLP(선형 레이어 + 활성함수 + softmax) 분류 헤드를 통과시켜 최종 클래스 예측을 한다. <ref>“ViT Documentation”, HuggingFace, https://huggingface.co/docs/transformers/en/model_doc/vit</ref>