구글 TPU 편집하기

'''TPU'''(Tensor Processing Unit)는 Google이 딥러닝 워크로드를 가속하기 위해 설계한 맞춤형 [[ASIC|ASIC(Application-Specific Integrated Circuit)]] 계열의 하드웨어 가속기이다. 내부 Google 서비스(Gmail, Search, Translate 등)와 Google Cloud Platform(GCP)의 AI/ML 워크로드를 위해 개발되었으며, 행렬 연산 및 대규모 딥러닝 연산을 최적화한 아키텍처를 가진다.

==개요==
TPU는 딥러닝에서 핵심이 되는 행렬 곱셈, convolution, 대규모 텐서 연산을 효율적으로 처리하기 위해 특수 설계된 하드웨어이다. GPU나 CPU는 범용 병렬 연산 장치이지만, TPU는 DNN 추론 및 학습을 위해 설계된 특화 구조(systolic array)를 갖는다.

Google TPU는 2015년 첫 등장 이후 다양한 버전(TPU v1~v5)이 공개되며 성능이 지속적으로 향상되었다.
==주요 특징==
===ASIC 기반 구조===
TPU는 특정 연산(DNN)을 최적화하기 위해 논리 회로가 고정된 ASIC 형태로 구현되어 있어, GPU보다 더 높은 전력 효율과 throughput을 제공한다.
===Systolic Array 아키텍처===
TPU의 핵심 구성 요소는 대규모 행렬 곱을 빠르게 수행하는 '''시스톨릭 어레이(systolic array)''' 구조이다.
*데이터가 규칙적으로 흐르며 파이프라인 형태로 연산 수행
*높은 데이터 재사용률
*딥러닝의 핵심 연산(MatMul, Conv)에 최적화
예) TPU v2/v3는 128 × 128 systolic array 사용.
===TensorFlow 및 JAX와의 긴밀한 통합===
*Google이 개발한 프레임워크와 자연스럽게 연동
*XLA 컴파일러를 통해 TPU에 최적화된 실행 그래프 생성
*대규모 분산 학습 기능 제공
===높은 에너지 효율===
*동일한 워크로드에서 GPU 대비 더 높은 성능/Watt 비율
*데이터센터 대규모 추론/학습 비용 절감
==버전별 아키텍처==
===TPU v1 (Inference-only)===
*8-bit 정수 연산 기반
*Google Search 및 Translate 서비스용
*28 TOPS 수준의 추론 성능
*단일보드 ASIC
===TPU v2===
*학습(Training)까지 지원
*128×128 신경망 프로세싱 유닛(Matrix Unit)
*45 TFLOPS(FP16) 성능
*4개 칩으로 구성된 TPU Pod 가능
*Google Cloud TPU로 제공 시작
===TPU v3===
*v2 대비 약 2배 성능
*냉각을 위한 액체 냉각(liquid cooling) 사용
*TPU Pod는 최대 100+ PFlops 규모
*대규모 Transformer 학습에 활용
===TPU v4===
*Cloud TPU v4 Pods는 수천 개의 TPU 코어 연결
*강화된 interconnect → GPU 클러스터 대비 높은 학습 효율
*6nm 공정 기반
*매우 높은 모델 병렬 처리 성능
===TPU v5 / v5p===
*최신 Google Cloud TPU 세대
*LLM·Diffusion·대규모 Transformer 학습 최적화
*더 큰 메모리, 더 높은 bandwidth, 개선된 interconnect 탑재
==TPU Pod==
TPU 칩 여러 개(수백~수천 개)를 연결한 대규모 분산 학습 시스템.
===특징===
*매우 빠른 칩 간 네트워크 대역폭
*모델 병렬/데이터 병렬 모두 지원
*초대형 모델(GPT, PaLM, Vision Transformers 등) 학습 가능
*Google Cloud에서 서비스 제공
==소프트웨어 스택==
===XLA (Accelerated Linear Algebra)===
Google의 컴파일러로, 딥러닝 그래프를 TPU용 최적화된 연산 세트로 변환.
===JAX===
TPU에서 높은 성능을 내는 연구자 중심 딥러닝 프레임워크.
===TensorFlow===
TPU를 처음부터 지원하며, TPU 전략을 통한 대규모 학습 가능.
==GPU와 비교==
{| class="wikitable"
!항목
!TPU
!GPU
|-
|설계 목적||딥러닝 전용 ASIC||범용 병렬 연산
|-
|구조||Systolic array||SM 기반 SIMD 병렬 구조
|-
|유연성||낮음||높음
|-
|성능/Watt||매우 높음||중간
|-
|적합한 작업||대규모 DNN 학습/추론||다양한 GPU 워크로드
|}
==TPU와 ASIC / FPGA와의 관계==
*'''ASIC''' 기반 → GPU보다 빠르고 효율적
*'''FPGA'''보다 속도 높고 전력 효율 뛰어남
*단 유연성은 FPGA나 GPU보다 떨어짐
==활용 분야==
*자연어 처리 (Transformer, LLM)
*컴퓨터 비전
*리코멘데이션 모델
*Google 내부 서비스
*GCP Cloud TPU 학습
*AI 연구 (PaLM, T5, EfficientNet 등)
==장점==
*대규모 딥러닝에 최적화
*GPU 대비 높은 전력 효율
*TPU Pod 기반 초대형 클러스터 사용 가능
*XLA 최적화로 높은 성능
*Google Cloud로 접근 가능
==한계==
*범용성 부족
*Google 생태계(TensorFlow/JAX) 중심
*모델 포팅이 필요할 때 복잡함
*커스텀 연산 유연성이 GPU보다 낮음
==함께 보기==
*[[GPU]]
*[[ASIC]]
*[[FPGA]]
*[[TensorFlow]]
*[[JAX]]
*[[XLA]]
*[[딥 러닝 가속기]]
*[[Deep Neural Network]]
==참고 문헌==
*Google TPU Architecture Whitepapers
*Jouppi, Norman P., et al. "In-Datacenter Performance Analysis of a Tensor Processing Unit."
*Google Cloud TPU 공식 문서
*XLA / JAX 기술 자료
[[분류:인공지능]]
[[분류:하드웨어]]