L2 정규화: 두 판 사이의 차이
IT 위키
(새 문서: '''L2 정규화'''(L2 Regularization)는 머신러닝과 딥러닝에서 모델의 복잡도를 억제하고 과적합(overfitting)을 방지하기 위해 손실 함수에 가중치의 제곱합을 추가하는 정규화 기법이다. 일반적으로 가'''중치 감쇠(weight decay)''' 또는 '''릿지 정규화(Ridge Regularization)''' 라고도 불린다. ==개념== L2 정규화는 모델의 파라미터(가중치)가 지나치게 커지지 않도록 제약을 부여한...) |
(차이 없음)
|
2025년 10월 30일 (목) 07:32 기준 최신판
L2 정규화(L2 Regularization)는 머신러닝과 딥러닝에서 모델의 복잡도를 억제하고 과적합(overfitting)을 방지하기 위해 손실 함수에 가중치의 제곱합을 추가하는 정규화 기법이다. 일반적으로 가중치 감쇠(weight decay) 또는 릿지 정규화(Ridge Regularization) 라고도 불린다.
개념[편집 | 원본 편집]
L2 정규화는 모델의 파라미터(가중치)가 지나치게 커지지 않도록 제약을 부여한다. 모델의 손실 함수 L(W)에 다음 항을 추가하여 새로운 목적 함수를 정의한다.
Lreg(W) = L(W) + λ ‖W‖22
여기서
- L(W): 원래의 손실 함수(예: MSE, Cross-Entropy 등)
- λ (람다): 정규화 강도를 조절하는 하이퍼파라미터
- ‖W‖22 = ∑i Wi2 : 모든 가중치 제곱의 합
이 항은 가중치의 크기를 줄이려는 방향으로 작용하여, 모델이 데이터에 과도하게 적합하는 것을 방지하고 일반화 성능을 향상시킨다.
특징[편집 | 원본 편집]
- 큰 가중치에 불이익을 주어 파라미터가 작아지도록 유도한다.
- 모든 가중치를 조금씩 줄이는 방향으로 작동하여 매끄러운(smooth) 모델을 만든다.
- λ 값이 너무 크면 과도한 규제가 발생해 과소적합(underfitting) 이 일어날 수 있다.
- 일반적으로 L1 정규화보다 안정적이며, 기울기 기반 옵티마이저와 결합이 용이하다.
수학적 해석[편집 | 원본 편집]
L2 정규화 항의 기울기는 다음과 같다.
∂/∂W (λ ‖W‖22) = 2λW
따라서 파라미터 갱신식은 다음과 같이 수정된다.
Wt+1 = Wt - η(∂L/∂W + 2λW)
즉, 매 스텝마다 가중치 자체에 비례하는 감쇠 항(−2λW) 이 추가되어, W가 점점 작아지는 방향으로 업데이트된다. 이 효과를 가중치 감쇠(weight decay)라고 부른다.
L1 정규화와의 비교[편집 | 원본 편집]
| 구분 | L1 정규화 | L2 정규화 |
|---|---|---|
| 규제 항 | Wi | λ ‖W‖22 = λ∑Wi2 |
| 효과 | 일부 가중치를 0으로 만들어 희소성(sparsity) 유도 | 모든 가중치를 작게 만들어 안정적 수렴 유도 |
| 최적화 표면 | 절댓값 형태로 인해 뾰족(비매끄러움) | 매끄럽고 연속적인 형태 |
| 대표 알고리즘 | 라쏘 회귀(Lasso Regression) | 릿지 회귀(Ridge Regression) |
딥러닝에서의 적용[편집 | 원본 편집]
딥러닝에서는 L2 정규화가 다양한 형태로 사용된다.
- AdamW 및 SGD의 가중치 감쇠(weight decay) 항으로 통합 적용됨
- 드롭아웃이나 배치 정규화와 함께 사용하여 일반화 성능 향상
- 대규모 모델에서 오버피팅 방지용 기본 기법으로 사용됨
장점[편집 | 원본 편집]
- 과적합 방지 및 일반화 성능 향상
- 파라미터의 수축 효과(shrinkage effect)를 통해 안정적 학습
- 최적화 문제에서 해의 유일성을 보장 (convex regularization)
단점[편집 | 원본 편집]
- 희소성(sparsity)을 유도하지 않음
- λ 조정이 까다로우며, 데이터 스케일에 따라 성능이 민감하게 달라질 수 있음