익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
구글 TPU
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
'''TPU'''(Tensor Processing Unit)는 Google이 딥러닝 워크로드를 가속하기 위해 설계한 맞춤형 [[ASIC|ASIC(Application-Specific Integrated Circuit)]] 계열의 하드웨어 가속기이다. 내부 Google 서비스(Gmail, Search, Translate 등)와 Google Cloud Platform(GCP)의 AI/ML 워크로드를 위해 개발되었으며, 행렬 연산 및 대규모 딥러닝 연산을 최적화한 아키텍처를 가진다. ==개요== TPU는 딥러닝에서 핵심이 되는 행렬 곱셈, convolution, 대규모 텐서 연산을 효율적으로 처리하기 위해 특수 설계된 하드웨어이다. GPU나 CPU는 범용 병렬 연산 장치이지만, TPU는 DNN 추론 및 학습을 위해 설계된 특화 구조(systolic array)를 갖는다. Google TPU는 2015년 첫 등장 이후 다양한 버전(TPU v1~v5)이 공개되며 성능이 지속적으로 향상되었다. ==주요 특징== ===ASIC 기반 구조=== TPU는 특정 연산(DNN)을 최적화하기 위해 논리 회로가 고정된 ASIC 형태로 구현되어 있어, GPU보다 더 높은 전력 효율과 throughput을 제공한다. ===Systolic Array 아키텍처=== TPU의 핵심 구성 요소는 대규모 행렬 곱을 빠르게 수행하는 '''시스톨릭 어레이(systolic array)''' 구조이다. *데이터가 규칙적으로 흐르며 파이프라인 형태로 연산 수행 *높은 데이터 재사용률 *딥러닝의 핵심 연산(MatMul, Conv)에 최적화 예) TPU v2/v3는 128 × 128 systolic array 사용. ===TensorFlow 및 JAX와의 긴밀한 통합=== *Google이 개발한 프레임워크와 자연스럽게 연동 *XLA 컴파일러를 통해 TPU에 최적화된 실행 그래프 생성 *대규모 분산 학습 기능 제공 ===높은 에너지 효율=== *동일한 워크로드에서 GPU 대비 더 높은 성능/Watt 비율 *데이터센터 대규모 추론/학습 비용 절감 ==버전별 아키텍처== ===TPU v1 (Inference-only)=== *8-bit 정수 연산 기반 *Google Search 및 Translate 서비스용 *28 TOPS 수준의 추론 성능 *단일보드 ASIC ===TPU v2=== *학습(Training)까지 지원 *128×128 신경망 프로세싱 유닛(Matrix Unit) *45 TFLOPS(FP16) 성능 *4개 칩으로 구성된 TPU Pod 가능 *Google Cloud TPU로 제공 시작 ===TPU v3=== *v2 대비 약 2배 성능 *냉각을 위한 액체 냉각(liquid cooling) 사용 *TPU Pod는 최대 100+ PFlops 규모 *대규모 Transformer 학습에 활용 ===TPU v4=== *Cloud TPU v4 Pods는 수천 개의 TPU 코어 연결 *강화된 interconnect → GPU 클러스터 대비 높은 학습 효율 *6nm 공정 기반 *매우 높은 모델 병렬 처리 성능 ===TPU v5 / v5p=== *최신 Google Cloud TPU 세대 *LLM·Diffusion·대규모 Transformer 학습 최적화 *더 큰 메모리, 더 높은 bandwidth, 개선된 interconnect 탑재 ==TPU Pod== TPU 칩 여러 개(수백~수천 개)를 연결한 대규모 분산 학습 시스템. ===특징=== *매우 빠른 칩 간 네트워크 대역폭 *모델 병렬/데이터 병렬 모두 지원 *초대형 모델(GPT, PaLM, Vision Transformers 등) 학습 가능 *Google Cloud에서 서비스 제공 ==소프트웨어 스택== ===XLA (Accelerated Linear Algebra)=== Google의 컴파일러로, 딥러닝 그래프를 TPU용 최적화된 연산 세트로 변환. ===JAX=== TPU에서 높은 성능을 내는 연구자 중심 딥러닝 프레임워크. ===TensorFlow=== TPU를 처음부터 지원하며, TPU 전략을 통한 대규모 학습 가능. ==GPU와 비교== {| class="wikitable" !항목 !TPU !GPU |- |설계 목적||딥러닝 전용 ASIC||범용 병렬 연산 |- |구조||Systolic array||SM 기반 SIMD 병렬 구조 |- |유연성||낮음||높음 |- |성능/Watt||매우 높음||중간 |- |적합한 작업||대규모 DNN 학습/추론||다양한 GPU 워크로드 |} ==TPU와 ASIC / FPGA와의 관계== *'''ASIC''' 기반 → GPU보다 빠르고 효율적 *'''FPGA'''보다 속도 높고 전력 효율 뛰어남 *단 유연성은 FPGA나 GPU보다 떨어짐 ==활용 분야== *자연어 처리 (Transformer, LLM) *컴퓨터 비전 *리코멘데이션 모델 *Google 내부 서비스 *GCP Cloud TPU 학습 *AI 연구 (PaLM, T5, EfficientNet 등) ==장점== *대규모 딥러닝에 최적화 *GPU 대비 높은 전력 효율 *TPU Pod 기반 초대형 클러스터 사용 가능 *XLA 최적화로 높은 성능 *Google Cloud로 접근 가능 ==한계== *범용성 부족 *Google 생태계(TensorFlow/JAX) 중심 *모델 포팅이 필요할 때 복잡함 *커스텀 연산 유연성이 GPU보다 낮음 ==함께 보기== *[[GPU]] *[[ASIC]] *[[FPGA]] *[[TensorFlow]] *[[JAX]] *[[XLA]] *[[딥 러닝 가속기]] *[[Deep Neural Network]] ==참고 문헌== *Google TPU Architecture Whitepapers *Jouppi, Norman P., et al. "In-Datacenter Performance Analysis of a Tensor Processing Unit." *Google Cloud TPU 공식 문서 *XLA / JAX 기술 자료 [[분류:인공지능]] [[분류:하드웨어]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록