L2 정규화
IT 위키
인공무능 (토론 | 기여)님의 2025년 10월 30일 (목) 07:32 판 (새 문서: '''L2 정규화'''(L2 Regularization)는 머신러닝과 딥러닝에서 모델의 복잡도를 억제하고 과적합(overfitting)을 방지하기 위해 손실 함수에 가중치의 제곱합을 추가하는 정규화 기법이다.  일반적으로 가'''중치 감쇠(weight decay)''' 또는 '''릿지 정규화(Ridge Regularization)''' 라고도 불린다. ==개념== L2 정규화는 모델의 파라미터(가중치)가 지나치게 커지지 않도록 제약을 부여한...)
L2 정규화(L2 Regularization)는 머신러닝과 딥러닝에서 모델의 복잡도를 억제하고 과적합(overfitting)을 방지하기 위해 손실 함수에 가중치의 제곱합을 추가하는 정규화 기법이다. 일반적으로 가중치 감쇠(weight decay) 또는 릿지 정규화(Ridge Regularization) 라고도 불린다.
개념[편집 | 원본 편집]
L2 정규화는 모델의 파라미터(가중치)가 지나치게 커지지 않도록 제약을 부여한다. 모델의 손실 함수 L(W)에 다음 항을 추가하여 새로운 목적 함수를 정의한다.
Lreg(W) = L(W) + λ ‖W‖22
여기서
- L(W): 원래의 손실 함수(예: MSE, Cross-Entropy 등)
- λ (람다): 정규화 강도를 조절하는 하이퍼파라미터
- ‖W‖22 = ∑i Wi2 : 모든 가중치 제곱의 합
이 항은 가중치의 크기를 줄이려는 방향으로 작용하여, 모델이 데이터에 과도하게 적합하는 것을 방지하고 일반화 성능을 향상시킨다.
특징[편집 | 원본 편집]
- 큰 가중치에 불이익을 주어 파라미터가 작아지도록 유도한다.
- 모든 가중치를 조금씩 줄이는 방향으로 작동하여 매끄러운(smooth) 모델을 만든다.
- λ 값이 너무 크면 과도한 규제가 발생해 과소적합(underfitting) 이 일어날 수 있다.
- 일반적으로 L1 정규화보다 안정적이며, 기울기 기반 옵티마이저와 결합이 용이하다.
수학적 해석[편집 | 원본 편집]
L2 정규화 항의 기울기는 다음과 같다.
∂/∂W (λ ‖W‖22) = 2λW
따라서 파라미터 갱신식은 다음과 같이 수정된다.
Wt+1 = Wt - η(∂L/∂W + 2λW)
즉, 매 스텝마다 가중치 자체에 비례하는 감쇠 항(−2λW) 이 추가되어, W가 점점 작아지는 방향으로 업데이트된다. 이 효과를 가중치 감쇠(weight decay)라고 부른다.
L1 정규화와의 비교[편집 | 원본 편집]
| 구분 | L1 정규화 | L2 정규화 | 
|---|---|---|
| 규제 항 | Wi | λ ‖W‖22 = λ∑Wi2 | 
| 효과 | 일부 가중치를 0으로 만들어 희소성(sparsity) 유도 | 모든 가중치를 작게 만들어 안정적 수렴 유도 | 
| 최적화 표면 | 절댓값 형태로 인해 뾰족(비매끄러움) | 매끄럽고 연속적인 형태 | 
| 대표 알고리즘 | 라쏘 회귀(Lasso Regression) | 릿지 회귀(Ridge Regression) | 
딥러닝에서의 적용[편집 | 원본 편집]
딥러닝에서는 L2 정규화가 다양한 형태로 사용된다.
- AdamW 및 SGD의 가중치 감쇠(weight decay) 항으로 통합 적용됨
- 드롭아웃이나 배치 정규화와 함께 사용하여 일반화 성능 향상
- 대규모 모델에서 오버피팅 방지용 기본 기법으로 사용됨
장점[편집 | 원본 편집]
- 과적합 방지 및 일반화 성능 향상
- 파라미터의 수축 효과(shrinkage effect)를 통해 안정적 학습
- 최적화 문제에서 해의 유일성을 보장 (convex regularization)
단점[편집 | 원본 편집]
- 희소성(sparsity)을 유도하지 않음
- λ 조정이 까다로우며, 데이터 스케일에 따라 성능이 민감하게 달라질 수 있음

