익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
AdamW 옵티마이저
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
AdamW 옵티마이저는 Adam 최적화 알고리즘의 변형으로, 가중치 감쇠(weight decay)를 그래디언트 업데이트로부터 분리(decouple)하여 일반화 성능을 향상시키는 방법이다. ==개요== 딥러닝에서 자주 사용되는 Adam(Adaptive Moment Estimation) 옵티마이저는 1차 및 2차 모멘트를 활용하여 각 파라미터별로 적응적인 학습률을 적용한다. 일반적으로 정규화를 위해 L2 정규화 항을 손실 함수에 추가하며, 이는 가중치 감쇠(weight decay) 효과를 준다. 하지만 Loshchilov와 Hutter는 이 방식이 Adam의 학습률 조정 메커니즘과 상호작용하여 정규화 효과를 왜곡시킬 수 있다고 지적하고, 이를 분리한 형태의 AdamW를 제안하였다. AdamW는 PyTorch, TensorFlow, Keras 등 다양한 딥러닝 프레임워크에서 널리 지원된다. ==수식 및 동작 원리== ===기본 Adam 업데이트=== 기본 Adam 알고리즘은 다음과 같은 단계로 파라미터를 업데이트한다: *m_t = β₁ * m_{t-1} + (1 - β₁) * g_t *v_t = β₂ * v_{t-1} + (1 - β₂) * (g_t)^2 *m_hat = m_t / (1 - β₁^t) *v_hat = v_t / (1 - β₂^t) *파라미터 업데이트: **θ_{t+1} = θ_t - η * m_hat / (sqrt(v_hat) + ε) 여기서 g_t는 현재 그래디언트, β₁과 β₂는 각각 모멘텀 계수, η는 학습률이다. 일반적인 Adam에서 가중치 감쇠를 위해 손실 함수에 L2 정규화를 추가하면, 그래디언트에 λ * θ 항이 포함되며 Adam의 스케일링 메커니즘과 간섭이 발생할 수 있다. ===AdamW의 분리된 가중치 감쇠=== AdamW는 위의 업데이트 과정과 별도로 다음과 같이 가중치 감쇠 항을 적용한다: *θ_{t+1} = θ_{t+1} - η * λ * θ_t 즉, 그래디언트 계산과 별개로 가중치 자체에 직접 감쇠를 적용함으로써 학습률 조정 과정과 정규화 효과가 분리된다. 이러한 방식은 일반화 성능을 개선하고 하이퍼파라미터 튜닝을 더 간편하게 만든다. ==장점 및 단점== ===장점=== *정규화와 학습률 조정 메커니즘이 분리되어 더 일관된 학습 효과를 얻을 수 있다. *일반화 성능이 개선되는 경우가 많다. *weight decay와 학습률 간의 민감한 상호작용이 줄어든다. ===단점 및 유의점=== *Adam과 비슷하지만 동작 방식이 다르기 때문에 혼용 시 성능 저하가 발생할 수 있다. *정규화가 필요 없는 파라미터에 대해 예외 처리가 필요하다. *일부 경우에는 SGD + 모멘텀이 더 좋은 성능을 낼 수 있다. ==구현 및 프레임워크 지원== 다양한 프레임워크에서 AdamW는 기본으로 제공되거나 선택적으로 사용할 수 있다: *PyTorch: `torch.optim.AdamW` *TensorFlow / Keras: `tf.keras.optimizers.AdamW` *Hugging Face Transformers 라이브러리 등에서도 널리 사용됨 예시 코드 (PyTorch):<syntaxhighlight lang="python"> from torch.optim import AdamW optimizer = AdamW(model.parameters(), lr=1e-4, weight_decay=1e-2) </syntaxhighlight> ==응용 분야== AdamW는 다음과 같은 딥러닝 분야에서 널리 사용된다: *자연어 처리 모델 (예: BERT, GPT, T5 등) *컴퓨터 비전 모델 (예: Vision Transformer, ConvNeXt 등) *생성 모델 (예: GAN, VAE) *대규모 모델 학습에서 일반화 성능 확보가 중요한 경우 ==같이 보기== *[[Adam 옵티마이저|Adam (최적화 알고리즘)]] *[[정규화 (인공지능)]] *[[트랜스포머 (인공지능)]] ==참고 문헌== *Ilya Loshchilov, Frank Hutter. "Decoupled Weight Decay Regularization." arXiv preprint arXiv:1711.05101, 2017. ==각주== <references /> [[분류:인공지능]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록