Wanda 가지치기

IT 위키
인공무능 (토론 | 기여)님의 2025년 10월 2일 (목) 07:50 판 (새 문서: '''Wanda''' 가지치기(Wanda Pruning, Pruning by '''W'''eights '''and''' '''A'''ctivations)는 대규모 언어 모델(LLM)을 추가 학습 없이도 효과적으로 희소화하는 방법으로, 각 가중치의 중요도를 가중치 크기와 입력 활성화의 크기의 곱으로 평가하는 방식이다. ==개념== *Wanda는 사전 학습된 모델에 대한 제로샷 가지치기 방식이다. *기존의 magnitude pruning은 단순히 가중치 절댓값만 기준...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

Wanda 가지치기(Wanda Pruning, Pruning by Weights and Activations)는 대규모 언어 모델(LLM)을 추가 학습 없이도 효과적으로 희소화하는 방법으로, 각 가중치의 중요도를 가중치 크기와 입력 활성화의 크기의 곱으로 평가하는 방식이다.

개념[편집 | 원본 편집]

  • Wanda는 사전 학습된 모델에 대한 제로샷 가지치기 방식이다.
  • 기존의 magnitude pruning은 단순히 가중치 절댓값만 기준으로 제거하지만, 입력 활성화 규모 차이를 반영하지 않아 오차가 발생할 수 있다.
  • Wanda는 각 가중치 wᵢⱼ에 대해 |wᵢⱼ| × ∥xⱼ∥ (입력 활성화 벡터의 크기) 점수를 사용해 중요도를 판단한다.
  • 출력 단위(output-wise)로 동일한 출력 노드에 연결된 가중치들끼리 비교하는 방식이다.

동작 방식[편집 | 원본 편집]

  • 각 선형 계층에서 입력 활성화 x에 대해, 각 입력 피처 j의 활성화 크기를 계산한다.
  • 가중치 W의 각 원소 wᵢⱼ에 대해 점수 Sᵢⱼ = |wᵢⱼ| × ∥xⱼ∥를 계산한다.
  • 동일 출력 노드 i에 속한 가중치들 중 점수가 낮은 항목들을 제거한다.
  • 제거된 이후의 모델은 추가 학습 없이 바로 추론에 사용할 수 있다.

장점[편집 | 원본 편집]

  • 추가 학습 없이 바로 적용할 수 있어 계산 비용이 낮다.
  • 입력 활성화 정보를 활용하므로 단순 magnitude 기준보다 더 정교한 판단이 가능하다.
  • 여러 실험에서 대형 언어 모델에서 우수한 희소화 성능을 보였다.

한계 및 고려점[편집 | 원본 편집]

  • 입력 활성화 샘플이 전체 모델 동작을 충분히 대표해야 한다.
  • 과도한 희소화 비율에서는 성능 저하가 클 수 있다.
  • 구조적 프루닝이나 레이어 간 균형 조정이 고려되지 않으면 손실이 발생할 수 있다.

확장 및 최신 연구[편집 | 원본 편집]

  • Wanda++: 디코더 블록 단위의 regional gradient를 이용해 프루닝 점수를 개선한 버전.
  • STADE: 활성화 인지 기준을 일반화하고 점수 산출을 개선하려는 연구.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]