비전 트랜스포머 편집하기 (부분)

==합성곱 신경망과의 차이점==
비전 트랜스포머와 합성곱 신경망(CNN)은 이미지 처리에 있어 여러 면에서 다르다.
#특징 추출 방식
#*CNN은 작은 커널(kernel, 예: 3×3, 5×5)을 이용해서 지역(local) 특징을 계층적으로 추출한다.
#*ViT는 패치들을 이용해 전역 관계(global relationships)를 직접 모델링하며, 공간(spatial)적으로 멀리 떨어진 패치 사이의 상호작용(interaction)을 어텐션(attention) 메커니즘으로 잡아낸다. <ref>“Vision Transformer: What It Is & How It Works”, V7labs, https://v7labs.com/blog/vision-transformer-guide</ref>
#지역성(inductive bias)
#*CNN은 필터 공유(weight sharing), 국소 수용 영역(local receptive field) 등의 구조적 편향(structural prior)이 있어서 적은 데이터에도 일반화할 수 있는 경향이 있다.
#*ViT는 이런 지역적 구조가 내재되어 있지 않기 때문에 더 많은 데이터와 정교한 정규화(regularization), 데이터 보강(data augmentation) 등이 필요하다. <ref>“ViT Architecture Overview”, Viso.ai, https://viso.ai/deep-learning/vision-transformer-vit</ref>
#연산 복잡도 및 자원 요구
#*CNN의 합성곱 연산은 국소적(local)이며 스트라이드(stride), 풀링(pooling) 등을 통해 공간 크기를 줄임으로써 계산량을 관리한다.
#*ViT의 어텐션 연산은 토큰(token, 패치) 수의 제곱(quadratic)에 비례하여 연산 및 메모리 비용이 커지며, 특히 높은 해상도 이미지일수록 부담이 커진다.
#표현력 및 일반화 성능
#*ViT는 충분히 큰 학습 데이터셋과 적절한 사전학습(pretraining)이 있을 경우, CNN보다 뛰어난 일반화(generalization) 및 표현력(capacity)을 보이는 경우가 많다. <ref>“An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”, arXiv:2010.11929</ref>
#*그러나 데이터가 적거나 사전학습이 부족한 경우, CNN이 더 안정적(stable)이고 효율적(efficient)일 수 있다.