가중치 감소

가중치 감소(Weight Decay)는 머신러닝 및 딥러닝에서 과적합(overfitting)을 방지하기 위한 정규화(regularization) 기법이다. 학습 과정에서 모델의 가중치(weight)가 지나치게 커지는 것을 억제하여, 일반화(generalization) 능력을 향상시키는 역할을 한다.

개요[편집 | 원본 편집]

가중치 감소는 손실 함수(loss function)에 가중치의 크기(weight magnitudes) 에 대한 페널티(penalty) 를 추가함으로써 작동한다. 이렇게 하면 모델이 단순한 가중치 구조를 갖도록 유도되어, 학습 데이터의 노이즈나 과적합을 덜 하게 된다.

작동 원리[편집 | 원본 편집]

손실 함수에 추가되는 항은 보통 가중치 벡터의 제곱합이다.
- 예: 수정된 손실 = 원래 손실 + λ × (가중치 제곱합)
경사 하강법과 같은 옵티마이제이션 과정에서, 가중치가 업데이트될 때 추가 항이 반영되어 매 스텝마다 가중치가 일정 비율 줄어든다.
- 예: 새로운 가중치 = 이전 가중치 - 학습률 × (기울기 + λ × 가중치)

종류 및 변형[편집 | 원본 편집]

L2 정규화: 가장 일반적인 방식으로, 가중치의 제곱합에 비례한 패널티를 부여한다.
L1 정규화: 가중치의 절댓값에 패널티를 부여하여 일부 가중치를 0으로 만들어 희소성을 유도한다.
계층별 또는 모듈별 가중치 감소 조정: 대형 언어 모델에서는 서로 다른 레이어에 서로 다른 강도의 weight decay를 적용하는 방식이 연구되고 있다.

장점 및 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

과적합 억제: 복잡한 모델이 학습 데이터의 노이즈에 과도하게 적합되는 것을 막는다.
일반화 성능 향상: 새로운 데이터에 대해 더 나은 성능을 기대할 수 있다.
수치적 안정성 개선: 큰 가중치로 인한 기울기 폭발이나 수치 불안정을 줄이는 데 도움이 된다.

한계[편집 | 원본 편집]

λ 값이 너무 크면 언더피팅(underfitting) 이 발생할 수 있다.
일부 파라미터(예: 편향, BatchNorm 계수)에는 감쇠를 적용하지 않는 것이 일반적이다.
학습률, 옵티마이저 설정 등 다른 하이퍼파라미터와 민감하게 상호작용한다.
배치 정규화와 함께 사용될 경우 효과가 약화되거나 달라질 수 있다.

응용 및 최근 연구[편집 | 원본 편집]

AlphaDecay: 대형 언어 모델에서 레이어별로 다른 weight decay를 적용하는 방식
저랭크(low-rank) 특성 유도: weight decay가 신경망 파라미터의 저랭크 구조를 유도한다는 연구
BatchNorm과의 관계: BatchNorm과 함께 사용될 때의 작동 원리에 대한 분석

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

Di He, Ajay Jaiswal, Songjun Tu, Li Shen, Ganzhao Yuan, Shiwei Liu, Lu Yin. “AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs”. arXiv:2506.14562.
Ke Chen, Chugang Yi, Haizhao Yang. “Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks”. arXiv:2410.02176.
Yucong Zhou, Yunxiao Sun, Zhao Zhong. “FixNorm: Dissecting Weight Decay for Training Deep Neural Networks”. arXiv:2103.15345.
Ziquan Liu, Yufei Cui, Jia Wan, Yu Mao, Antoni B. Chan. “Weight Rescaling: Effective and Robust Regularization for Deep Neural Networks with Batch Normalization”. arXiv:2102.03497.

각주[편집 | 원본 편집]

익명 사용자

검색

가중치 감소

이름공간

더 보기

문서 행위

목차

개요[편집 | 원본 편집]

작동 원리[편집 | 원본 편집]

종류 및 변형[편집 | 원본 편집]

장점 및 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

한계[편집 | 원본 편집]

응용 및 최근 연구[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

가중치 감소

개요[편집 | 원본 편집]

작동 원리[편집 | 원본 편집]

종류 및 변형[편집 | 원본 편집]

장점 및 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

한계[편집 | 원본 편집]

응용 및 최근 연구[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록