익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
Wanda 가지치기
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
'''Wanda''' 가지치기(Wanda Pruning, Pruning by '''W'''eights '''and''' '''A'''ctivations)는 대규모 언어 모델(LLM)을 추가 학습 없이도 효과적으로 희소화하는 방법으로, 각 가중치의 중요도를 가중치 크기와 입력 활성화의 크기의 곱으로 평가하는 방식이다. ==개념== *Wanda는 사전 학습된 모델에 대한 [[제로샷 가지치기]] 방식이다. *기존의 magnitude pruning은 단순히 가중치 절댓값만 기준으로 제거하지만, 입력 활성화 규모 차이를 반영하지 않아 오차가 발생할 수 있다. *Wanda는 각 가중치 wᵢⱼ에 대해 |wᵢⱼ| × ∥xⱼ∥ (입력 활성화 벡터의 크기) 점수를 사용해 중요도를 판단한다. *출력 단위(output-wise)로 동일한 출력 노드에 연결된 가중치들끼리 비교하는 방식이다. ==동작 방식== *각 선형 계층에서 입력 활성화 x에 대해, 각 입력 피처 j의 활성화 크기를 계산한다. *가중치 W의 각 원소 wᵢⱼ에 대해 점수 Sᵢⱼ = |wᵢⱼ| × ∥xⱼ∥를 계산한다. *동일 출력 노드 i에 속한 가중치들 중 점수가 낮은 항목들을 제거한다. *제거된 이후의 모델은 추가 학습 없이 바로 추론에 사용할 수 있다. ==장점== *추가 학습 없이 바로 적용할 수 있어 계산 비용이 낮다. *입력 활성화 정보를 활용하므로 단순 magnitude 기준보다 더 정교한 판단이 가능하다. *여러 실험에서 대형 언어 모델에서 우수한 희소화 성능을 보였다. ==한계 및 고려점== *입력 활성화 샘플이 전체 모델 동작을 충분히 대표해야 한다. *과도한 희소화 비율에서는 성능 저하가 클 수 있다. *구조적 프루닝이나 레이어 간 균형 조정이 고려되지 않으면 손실이 발생할 수 있다. ==확장 및 최신 연구== *'''Wanda++''': 디코더 블록 단위의 regional gradient를 이용해 프루닝 점수를 개선한 버전. *'''STADE''': 활성화 인지 기준을 일반화하고 점수 산출을 개선하려는 연구. ==같이 보기== *[[제로샷 프루닝]] *[[SparseGPT]] *[[모델 압축]] *[[신경망 가지치기]] ==참고 문헌== *[https://arxiv.org/abs/2306.11695 A Simple and Effective Pruning Approach for Large Language Models — Sun et al., 2023] *[https://arxiv.org/abs/2503.04992 Wanda++: Pruning Large Language Models via Regional Gradients — Yang et al., 2025] [[분류:인공지능]] [[분류:언어 모델]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록