AI 가속기 편집하기

'''AI 가속기'''(AI Accelerator)는 인공지능(Artificial Intelligence), 특히 딥러닝(Deep Learning)의 연산을 빠르고 효율적으로 수행하기 위해 설계된 특수 목적 하드웨어이다. 딥러닝 모델의 핵심 연산(행렬 곱, convolution, attention 등)을 가속하기 위해 범용 CPU나 GPU보다 더 높은 성능 또는 전력 효율을 제공한다.

AI 가속기는 데이터센터, 클라우드, 엣지 장치(스마트폰·IoT), 로봇, 자율주행 등 다양한 분야에서 사용된다. 대표적인 예로 Google TPU, Apple Neural Engine, ARM NPU, Xilinx FPGA 기반 가속기 등이 있다.
==개요==
딥러닝 모델은 대량의 행렬 연산(MATMUL), 합성곱(CONV), 활성화 계산, normalization 등 반복적이고 구조적인 연산으로 이루어져 있다. 이러한 연산은 일반 CPU보다 GPU 또는 전용 가속기에서 훨씬 빠르게 실행된다.

AI 가속기는 다음과 같은 목표를 가진다:
*딥러닝 연산의 처리량(throughput) 최대화
*전력 효율 향상 (Performance per Watt)
*DRAM 접근 최소화를 통한 메모리 병목 해결
*대규모 모델(LLM, Vision Transformers) 실행 지원
==주요 구성 요소==
대부분의 AI 가속기는 다음과 같은 공통 구조를 가진다:

'''Compute Core (MAC Array / Systolic Array)'''

* 딥러닝의 핵심 연산인 곱셈-누산(Multiply-Accumulate, MAC)을 수행하는 연산 유닛 집합.  일부 ASIC 기반 가속기(TPU 등)는 대규모 시스톨릭 어레이를 사용한다.

'''Weight SRAM'''

* 모델 파라미터(Weights)를 저장하는 온칩 메모리.  DRAM 접근을 줄여 전력과 지연(latency)을 절감.

'''Activation SRAM'''

* 중간 활성값(activations)을 저장하는 온칩 버퍼.  딥러닝 inference와 training의 메모리 병목 완화에 필수.

'''Register File (RF)'''

* 가장 빠른 메모리 계층. 직접 연산 직전에 필요한 값을 저장.

'''DRAM (HBM 또는 외부 DRAM)'''

* 대규모 모델과 데이터를 저장.  에너지 비용이 높기 때문에 DRAM 접근을 최소화하는 것이 가속기 설계의 핵심이다.

'''NoC (Network-on-Chip)'''

* 가속기, CPU, GPU 등이 서로 통신하기 위한 칩 내부 네트워크.  대규모 AI 칩에서는 NoC 효율이 성능에 큰 영향을 미친다.

==메모리 계층과 에너지 비용==
딥러닝 연산에서 에너지의 대부분은 "계산"이 아니라 "메모리 접근"에서 발생한다.

'''정규화된 에너지 비용 예시:'''
*ALU 연산 = 1×
*Register File = 2×
*On-chip SRAM/Buffer = 6×
*DRAM 접근 = '''200×'''
이에 따라 AI 가속기 설계에서는 DRAM 접근을 최소화하기 위해:
*weight/activation SRAM 증가
*데이터 재사용(data reuse) 극대화
*systolic array 기반 연산
*tiling, blocking 최적화
가 필수적으로 고려된다.
==주요 종류==
===GPU 기반 가속기===
*NVIDIA A100, H100, B100
*AMD Instinct MI 시리즈
*Intel GPU
대량 병렬 처리에 적합하며 AI 학습에서 사실상 표준.
===ASIC 기반 AI 가속기===
딥러닝을 위해 설계된 전용 칩.
*[[TPU]] (Google Tensor Processing Unit)
*Apple Neural Engine (ANE)
*Cerebras Wafer-Scale Engine (WSE)
*Tesla Dojo
*Edge TPU, Habana Gaudi 등
높은 성능/Watt를 제공하지만 유연성은 낮다.
===FPGA 기반 AI 가속기===
프로그래머블 하드웨어로, 빠르고 유연한 AI 프로토타이핑에 적합.
*Xilinx Alveo
*Intel Arria/Stratix FPGA
특정 연산을 하드웨어로 직접 설계할 수 있으나 최대 성능은 ASIC보다 낮다.
===NPU (Neural Processing Unit)===
스마트폰·엣지 장치용 AI 전용 유닛.
*Apple ANE
*Samsung NPU
*Qualcomm Hexagon DSP
*MediaTek APU
==AI 가속기와 CPU/GPU의 관계==
AI 가속기는 전체 프로그램을 실행하는 것이 아니라, 딥러닝과 관련된 특정 부분만 가속한다.

예:
*전체 앱 로직 → CPU
*Preprocessing → CPU/GPU
*CNN/Transformer inference → AI Accelerator
*Post-processing → CPU
즉, AI 가속기는 시스템 내 다른 프로세서들과 함께 동작한다.
==AI 가속기 설계의 핵심 목표==
*높은 throughput
*낮은 latency
*낮은 전력 소비
*높은 메모리 대역폭 이용 효율
*DRAM 접근 최소화
*연산/메모리 병렬성 극대화
*모델 병렬/데이터 병렬 지원
==활용 분야==
*대규모 AI 학습 및 추론
*자연어 처리 (LLM, Transformer)
*컴퓨터 비전 (CNN, ViT)
*자율주행 시스템
*스마트폰 및 IoT 디바이스
*온디바이스(Edge) AI
*데이터센터 AI 최적화
==AI 가속기 vs GPU vs ASIC vs FPGA==
{| class="wikitable"
!특성
!AI 가속기(일반)
!GPU
![[ASIC]]
![[FPGA]]
|-
|목적||AI 특화 연산 가속||범용 병렬 연산||특정 목적 전용||프로그래머블 하드웨어
|-
|성능/Watt||매우 높음||중간||최고 수준||중간
|-
|유연성||중간~낮음||높음||매우 낮음||매우 높음
|-
|개발 비용||다양함||낮음||매우 높음||낮음
|-
|적합한 작업||CNN, Transformer, inference||학습 + 범용 연산||대규모 inference||프로토타이핑 및 특수 목적
|}
==함께 보기==
*[[GPU]]
*[[TPU]]
*[[ASIC]]
*[[FPGA]]
*[[DRAM]]
*[[SRAM]]
*[[딥 러닝]]
*[[Tensor Core]]
*[[Systolic Array]]
==참고 문헌==
*Google TPU 논문
*NVIDIA GPU Architecture Whitepapers
*Xilinx Alveo 및 인텔 FPGA 문서
*Neuromorphic 및 NPU 관련 연구 자료
*AI Accelerator 설계 관련 학술 논문
[[분류:인공지능]]
[[분류:하드웨어]]