Triton (인공지능) 편집하기 (부분)

==특징==
===Python 기반 GPU 커널 작성===
Triton은 GPU 커널을 Python 코드처럼 작성하며, 이를 컴파일하여 CUDA 수준의 고성능을 제공한다.
*Python과 유사한 문법
*저수준 메모리 접근 및 병렬 처리 구조를 자동 최적화
*복잡한 CUDA boilerplate 코드 불필요
===자동 타일링 및 벡터라이제이션===
Triton 컴파일러는 matmul, convolution 같은 구조화된 연산에 대해:
*자동 타일 크기 선택
*Vectorized memory load/store
*Shared memory 활용
*워프/스레드 구조 최적화
를 처리하여, GPU 아키텍처에 맞춘 성능 이식성을 제공한다.
===커널 Fusion 친화적 구조===
Triton은 PyTorch 2.0의 TorchInductor와 결합하여 연산 그래프의 연속된 연산들을 하나의 fused kernel로 압축할 수 있다. 이는 메모리 왕복 및 커널 호출 오버헤드를 크게 감소시키며, 트레이닝 및 추론 성능 향상에 기여한다.
===간결한 문법===
예시:<syntaxhighlight lang="python">
import triton
import triton.language as tl

@triton.jit
def matmul_kernel(a_ptr, b_ptr, c_ptr, M, N, K):
    pid = tl.program_id(0)
    row = pid * 16 + tl.arange(0, 16)
    col = tl.arange(0, 16)
    a = tl.load(a_ptr + row[:, None] * K + tl.arange(0, K))
    b = tl.load(b_ptr + tl.arange(0, K)[:, None] * N + col)
    c = tl.dot(a, b)
    tl.store(c_ptr + row[:, None] * N + col, c)
</syntaxhighlight>위 코드는 전형적인 16×16 타일 기반 행렬 곱셈 커널이며, CUDA와 비교하면 훨씬 짧고 직관적이다.