N:M 희소성: 두 판 사이의 차이
IT 위키
(새 문서: N:M 희소성(N:M sparsity)은 신경망 가중치 행렬에서 연속된 M개의 항목 그룹 중 N개의 항목만 비제로(nonzero) 값으로 유지하는 방식의 구조적 희소성이다. ==개념== *각 그룹(블록) 내 M개의 연속된 가중치 중 N개만 남기고 나머지를 0으로 만든다. *예를 들어 2:4 희소성은 매 4개의 가중치에서 2개만 활성화시키고 나머지를 제거하는 패턴이다. *이 방식은 완전 비구조 희소성(...) |
(차이 없음)
|
2025년 10월 2일 (목) 07:57 기준 최신판
N:M 희소성(N:M sparsity)은 신경망 가중치 행렬에서 연속된 M개의 항목 그룹 중 N개의 항목만 비제로(nonzero) 값으로 유지하는 방식의 구조적 희소성이다.
개념[편집 | 원본 편집]
- 각 그룹(블록) 내 M개의 연속된 가중치 중 N개만 남기고 나머지를 0으로 만든다.
- 예를 들어 2:4 희소성은 매 4개의 가중치에서 2개만 활성화시키고 나머지를 제거하는 패턴이다.
- 이 방식은 완전 비구조 희소성(unstructured sparsity)의 유연성과 구조적 희소성(structured sparsity)의 하드웨어 효율성 사이의 타협점이다.
장점 및 특성[편집 | 원본 편집]
- 일부 GPU 하드웨어(A100 등)에서는 2:4 희소성을 가속할 수 있는 구조를 지원한다.
- 전체 구조에 고르게 분포된 희소성을 유지하여 병목 현상을 줄일 수 있다.
- 마스크 인덱싱이 단순하고 연산 병렬화에 유리하다.
- 학습 단계부터 N:M 패턴을 유지하며 훈련하는 방식도 연구되고 있다.
한계 및 과제[편집 | 원본 편집]
- M이 클수록 마스크 관리와 정렬 비용이 증가할 수 있다.
- 희소성 패턴이 전치(transpose)나 재배열 연산에서 깨질 가능성이 있다.
- 특정 N:M 비율만 하드웨어 최적화 대상이 되므로 유연성이 제한된다.
- 구조적 제약으로 인해 비구조 희소성보다 정보 손실 위험이 크다.
연구 및 사례[편집 | 원본 편집]
- N:M 희소성은 LLM, CNN, RNN 등 다양한 모델 구조에서 적용 가능하며, 학습 속도 및 추론 성능 향상과 메모리 절감을 동시에 추구한다.
- 희소 어텐션 구조, transposable mask 설계, 희소성-aware 훈련 기법 등과의 통합 연구가 진행 중이다.
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Zhou, S., et al. (2021). Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch. arXiv:2102.04010.
- Chmiel, B., et al. (2022). Minimum Variance Unbiased N:M Sparsity for the Neural Gradients. arXiv:2203.10991.
- Hubara, I., et al. (2021). Accelerated Sparse Neural Training: A Provable and Efficient Method to Find N:M Transposable Masks. arXiv:2102.08124.
- Li, B., et al. (2023). Dynamic N:M Fine-Grained Structured Sparse Attention Mechanism. Proceedings of the ACM.
- Lasby, B., et al. (2023). Dynamic Sparse Training with Structured Sparsity. arXiv:2305.02299.