올 리듀스 편집하기

[[파일:올 리듀스.png|섬네일|올 리듀스 방식 작동 구조]]
올 리듀스(All-Reduce)는 분산 딥러닝 및 고성능 컴퓨팅(HPC) 환경에서 여러 노드(예: GPU)가 계산한 데이터를 집계하고, 그 결과를 모든 노드에 다시 배포하는 집합 통신 연산이다.
==개요==
올 리듀스는 각 노드가 독립적으로 계산한 기울기(gradient) 또는 텐서 값을 서로 공유하고 합산 또는 평균한 뒤, 그 결과를 모든 노드가 동일하게 갖도록 하는 방식이다. 이 과정은 대규모 분산 학습에서 모델 파라미터의 일관성을 유지하는 핵심 기술로 사용되며, 특히 딥러닝 프레임워크([[PyTorch]], [[TensorFlow]], [[Horovod]] 등)에서 기본적인 동기식 데이터 병렬 학습 기법으로 채택된다.
==동작 방식==
올 리듀스는 일반적으로 다음 단계로 구성된다.
*각 노드가 로컬 데이터로 순전파와 역전파를 수행하고 기울기를 계산한다.
*모든 노드는 서로의 기울기를 통신하여 합산 또는 평균하는 집계(reduce)를 수행한다.
*집계된 결과는 다시 모든 노드에 동일하게 배포된다(gather).
*모든 노드는 동일한 기울기를 사용해 파라미터를 갱신한다.
==특징==
*각 노드가 동일한 파라미터를 항상 유지하므로 동기식 학습에 적합하다.
*기울기 평균은 단일 노드에서 큰 배치를 사용하는 것과 동일한 효과를 갖는다.
*분산 환경에서도 모델 일관성을 유지할 수 있다.
==파라미터 서버와의 비교==
올 리듀스는 모든 노드가 서로 기울기를 교환하며 집계하는 분산형 통신 구조인 반면, 파라미터 서버(Parameter Server)는 중앙 서버가 모든 워커로부터 기울기를 수집·통합한 뒤 갱신된 파라미터를 다시 배포하는 '''중앙집중식 구조'''이다. 

* 파라미터 서버는 서버 노드에 통신 및 연산 부하가 집중되어 병목이 발생하기 쉬운 반면, 
* 올 리듀스는 통신량이 모든 노드에 균등하게 분산되어 확장성이 높고 대규모 GPU 클러스터 환경에서 더 효과적이다.

==구현 방식==
올 리듀스는 다양한 통신 알고리즘으로 구현될 수 있으며, 그중 가장 널리 사용되는 구조는 다음과 같다.
===[[링 올 리듀스|링 올 리듀스(Ring All-Reduce)]]===
노드들을 링 형태로 연결하여 각 노드가 자신의 텐서를 여러 조각(chunk)으로 나눠 이웃 노드에 전송하는 방식이다. 모든 노드는 동일한 통신량을 가지므로 확장성이 뛰어나며, GPU 클러스터에서 가장 널리 사용되는 구현 방식이다.
===트리 기반 올 리듀스===
노드들을 트리 구조로 조직하여 상위 노드로 기울기를 모으고(reduce), 다시 하위 노드로 결과를 전파하는(broadcast) 방식이다. 통신 단계의 깊이가 짧아 지연(latency)이 낮은 것이 장점이다.
==장점==
*높은 확장성: 노드 수가 많아져도 성능 손실이 작다.
*균등한 통신 부하: 특히 링 구조에서는 모든 노드가 동일한 양의 데이터를 교환한다.
*GPU 간 통신을 최적화한 NCCL과 같은 라이브러리에서 고성능 지원.
==단점==
*모든 노드가 동기적으로 동작해야 하므로 느린 노드가 전체 속도를 저하시킬 수 있다.
*통신 비용이 매우 낮은 고속 네트워크 환경에서만 효율이 극대화된다.
*비동기식 학습에는 적합하지 않다.
==활용==
*대규모 딥러닝 모델의 데이터 병렬 학습
*HPC 환경에서 벡터 또는 텐서 연산 집계
*PyTorch DistributedDataParallel(DDP), TensorFlow MirroredStrategy, Horovod 등에서 기본 동작 방식
==같이 보기==
*[[데이터 병렬 처리]]
*[[분산 학습]]
*[[링 올 리듀스]]
*[[파라미터 서버]]
*[[딥러닝]]
==참고 문헌==
*Sergeev, A.; Del Balso, M. "Horovod: Fast and Easy Distributed Deep Learning in TensorFlow." arXiv (2018).
*Thakur, R.; Rabenseifner, R.; Gropp, W. "Optimization of Collective Communication Operations." International Journal of High Performance Computing Applications (2005).
==각주==
<references />
[[분류:인공지능]]
[[분류:분산 컴퓨팅]]