N:M 희소성

IT 위키

N:M 희소성(N:M sparsity)은 신경망 가중치 행렬에서 연속된 M개의 항목 그룹 중 N개의 항목만 비제로(nonzero) 값으로 유지하는 방식의 구조적 희소성이다.

개념[편집 | 원본 편집]

  • 각 그룹(블록) 내 M개의 연속된 가중치 중 N개만 남기고 나머지를 0으로 만든다.
  • 예를 들어 2:4 희소성은 매 4개의 가중치에서 2개만 활성화시키고 나머지를 제거하는 패턴이다.
  • 이 방식은 완전 비구조 희소성(unstructured sparsity)의 유연성과 구조적 희소성(structured sparsity)의 하드웨어 효율성 사이의 타협점이다.

장점 및 특성[편집 | 원본 편집]

  • 일부 GPU 하드웨어(A100 등)에서는 2:4 희소성을 가속할 수 있는 구조를 지원한다.
  • 전체 구조에 고르게 분포된 희소성을 유지하여 병목 현상을 줄일 수 있다.
  • 마스크 인덱싱이 단순하고 연산 병렬화에 유리하다.
  • 학습 단계부터 N:M 패턴을 유지하며 훈련하는 방식도 연구되고 있다.

한계 및 과제[편집 | 원본 편집]

  • M이 클수록 마스크 관리와 정렬 비용이 증가할 수 있다.
  • 희소성 패턴이 전치(transpose)나 재배열 연산에서 깨질 가능성이 있다.
  • 특정 N:M 비율만 하드웨어 최적화 대상이 되므로 유연성이 제한된다.
  • 구조적 제약으로 인해 비구조 희소성보다 정보 손실 위험이 크다.

연구 및 사례[편집 | 원본 편집]

  • N:M 희소성은 LLM, CNN, RNN 등 다양한 모델 구조에서 적용 가능하며, 학습 속도 및 추론 성능 향상과 메모리 절감을 동시에 추구한다.
  • 희소 어텐션 구조, transposable mask 설계, 희소성-aware 훈련 기법 등과의 통합 연구가 진행 중이다.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]