GPU

IT 위키
인공무능 (토론 | 기여)님의 2025년 11월 20일 (목) 05:51 판 (새 문서: '''GPU'''(Graphics Processing Unit, 그래픽 처리 장치)는 대규모 병렬 연산을 효율적으로 처리하도록 설계된 프로세서로, 본래는 그래픽 렌더링을 위해 개발되었지만 현재는 딥러닝, 과학 계산, 고성능 컴퓨팅(HPC), 데이터 분석 등 다양한 분야에서 핵심 가속기로 사용되고 있다. ==개요== GPU는 수천 개의 연산 유닛을 병렬로 배치해, 동일하거나 유사한 연산을 반복적으로 수...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

GPU(Graphics Processing Unit, 그래픽 처리 장치)는 대규모 병렬 연산을 효율적으로 처리하도록 설계된 프로세서로, 본래는 그래픽 렌더링을 위해 개발되었지만 현재는 딥러닝, 과학 계산, 고성능 컴퓨팅(HPC), 데이터 분석 등 다양한 분야에서 핵심 가속기로 사용되고 있다.

개요[편집 | 원본 편집]

GPU는 수천 개의 연산 유닛을 병렬로 배치해, 동일하거나 유사한 연산을 반복적으로 수행하는 워크로드에 최적화되어 있다. 딥러닝 연산(행렬 곱, convolution)과 같이 대량의 연산을 동시에 처리하는 workloads에서 CPU에 비해 압도적인 속도를 제공한다.

대표적인 GPU 제조사는 NVIDIA, AMD, Intel 등이 있으며, 이 중 NVIDIA는 CUDA 생태계와 딥러닝 프레임워크 최적화를 바탕으로 AI 분야에서 사실상 표준 위치를 차지하고 있다.

GPU의 구조[편집 | 원본 편집]

GPU는 일반적으로 다음과 같은 주요 구성 요소로 이루어진다:

Streaming Multiprocessor (SM) / Compute Unit (CU)

  • 대규모 병렬 처리를 수행하는 핵심 연산 유닛. NVIDIA는 SM, AMD는 Compute Unit(CU) 용어를 사용한다.

수천 개의 ALU (Arithmetic Logic Unit)

  • 비트·정수·부동소수점 연산을 대량으로 처리할 수 있도록 구성된 연산 파이프라인.

고대역폭 메모리 (HBM, GDDR6 등)

  • 딥러닝 연산에 필요한 대량의 데이터 전송을 빠르게 수행.

Warp / Wavefront 기반 스케줄링

  • NVIDIA: Warp(32 threads) AMD: Wavefront(64 threads) 단위로 병렬 실행을 관리한다.

Tensor/Core AI 연산 유닛

  • 딥러닝 가속을 위한 특수 유닛:
    • NVIDIA Tensor Core
    • AMD Matrix Core
    • Intel XMX Engine
  • 이들 유닛은 FP16/BF16/INT8 같은 저정밀도 매트릭스 연산을 극적으로 가속한다.

GPU와 CPU의 비교[편집 | 원본 편집]

항목 GPU CPU
목적 병렬 연산(대량의 동일 연산) 직렬 연산(제어 중심)
코어 수 수백~수천 개 수 개~수십 개
클럭 속도 낮음 높음
장점 대규모 데이터 병렬성, 매우 높은 연산량 복잡한 분기·제어 구조에 유리
적합한 작업 딥러닝, 그래픽, 과학 계산 OS, 네트워크, 로직 처리

GPU와 딥러닝[편집 | 원본 편집]

딥러닝의 행렬 곱, convolution, attention 등은 GPU의 병렬 구조와 매우 잘 맞는다. 이 때문에 GPU는 현대 딥러닝 학습에서 사실상 필수 하드웨어가 되었다.

딥러닝에서 GPU가 중요한 이유[편집 | 원본 편집]

  • matmul, conv 같은 반복적 연산을 대규모 병렬로 처리
  • 고대역폭 메모리(HBM)로 데이터 이동 속도가 빠름
  • Tensor Core 등 딥러닝 특화 하드웨어 탑재
  • cuDNN, cuBLAS 등 최적화된 라이브러리 제공
  • PyTorch, TensorFlow 등이 GPU 자동 가속 지원

GPU 딥러닝 가속을 위한 핵심 라이브러리[편집 | 원본 편집]

GPU 프로그래밍[편집 | 원본 편집]

CUDA

  • NVIDIA GPU를 위한 병렬 프로그래밍 모델. kernel 함수로 GPU에서 직접 계산 수행 가능.

OpenCL

  • GPU·CPU·FPGA 등 다양한 플랫폼에서 동작하는 범용 병렬 API.

Vulkan / DirectCompute

  • 그래픽 API이지만 범용 연산(GPGPU) 가능.

Triton

  • PyTorch 통합 GPU 커널 DSL로, CUDA 없이도 맞춤형 고성능 커널 생성 가능.

GPU 아키텍처의 발전[편집 | 원본 편집]

GPU는 AI 수요 증가와 함께 빠르게 진화하고 있다.

주요 아키텍처 (NVIDIA 기준)[편집 | 원본 편집]

  • Pascal
  • Volta (Tensor Core 최초 도입)
  • Turing
  • Ampere
  • Hopper
  • Blackwell

AI 중심 특징[편집 | 원본 편집]

  • Tensor Core 확장
  • FP16/BF16/INT8 최적화
  • Multi-instance GPU(MIG)
  • 고대역폭 HBM 메모리 탑재

GPU vs ASIC vs FPGA[편집 | 원본 편집]

특성 GPU ASIC FPGA
유연성 높음(소프트웨어 기반) 매우 낮음 매우 높음
성능 높음 최고 성능 중간~높음
전력 효율 중간 매우 높음 중간
개발 비용 없음(기성품) 매우 높음 낮음
적합한 작업 딥러닝 학습·추론, 그래픽, HPC 특정 모델 추론 대량 처리 프로토타이핑, 커스텀 파이프라인

GPU의 활용 분야[편집 | 원본 편집]

  • 딥러닝 학습 및 추론
  • 컴퓨터 그래픽스
  • 시뮬레이션(유체, 물리, 천체역학 등)
  • 게임 렌더링
  • 금융(고속 시뮬레이션, 알고리즘 트레이딩)
  • 데이터 분석 및 머신러닝
  • 자율주행 시스템

대표 GPU 예시[편집 | 원본 편집]

  • NVIDIA GeForce, Quadro, RTX
  • NVIDIA A100, H100, B100 (데이터센터 AI GPU)
  • AMD Radeon, Instinct MI 시리즈
  • Intel Arc / Ponte Vecchio

함께 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • NVIDIA GPU Architecture Whitepaper
  • AMD ROCm Documentation
  • Intel GPU Compute Architecture 자료
  • 다양한 GPU 가속 관련 학술 논문