딥 러닝 옵티마이저 편집하기

'''딥 러닝 옵티마이저(Deep Learning Optimizer)'''는 딥러닝 모델의 학습 과정에서 손실 함수(loss function)를 최소화하기 위해 신경망의 가중치 및 편향 등의 파라미터를 반복적으로 갱신하는 알고리즘이다.  이러한 최적화 알고리즘은 고차원, 비선형, 대규모 파라미터 공간을 가진 신경망에서 효율적이고 안정적으로 학습이 이루어지도록 하는 핵심 구성 요소이다.
==개념 및 역할==
딥러닝 모델은 보통 신경망의 출력과 실제 정답 간의 오차를 나타내는 손실 함수 L(W)을 최소화하는 방향으로 파라미터 W를 조정한다.  이때 옵티마이저는 다음 과정을 담당한다.
*현재 파라미터에서 손실 함수의 기울기(그래디언트)를 계산한다.
*기울기 및 내부 상태를 바탕으로 파라미터를 다음 식과 같이 갱신한다.
**'''W_new = W_old - η × Δ'''
**여기서 η는 학습률(learning rate), Δ는 기울기 및 보조 정보(모멘텀, 적응 학습률 등)를 포함한 갱신 방향이다.
*여러 반복(에폭, 미니배치)을 통해 손실이 점진적으로 감소하고 모델이 데이터에 적합하도록 한다.
==주요 옵티마이저 알고리즘==
딥러닝에서 널리 사용되는 옵티마이저 알고리즘은 다음과 같다. 각 방법마다 학습률 조정 방식, 모멘텀 적용 여부, 적응적 스텝 크기(adaptive step size) 여부 등이 다르다.
*'''경사 하강법(Gradient Descent, GD)'''
**전체 데이터셋을 한 번에 사용하여 기울기를 계산하고 파라미터를 갱신하는 방식이다.
**대규모 데이터셋에는 비효율적이다.

*'''확률적 경사 하강법(Stochastic Gradient Descent, SGD)'''
**매 반복마다 한 개 혹은 소수의 샘플로 기울기를 계산하여 자주 파라미터를 갱신한다.
**빠르지만 노이즈가 많고 수렴이 느릴 수 있다.

*'''모멘텀 기반 SGD (SGD + Momentum)'''
**이전 갱신 방향을 일부 반영하여 진동을 줄이고 수렴 속도를 개선한다.

*'''AdaGrad (Adaptive Gradient)'''
**각각의 파라미터마다 과거 기울기의 제곱합을 누적해서 학습률을 조절한다.
**희소(sparse) 데이터에 효과적이다.

*'''RMSProp (Root Mean Square Propagation)'''
**AdaGrad의 단점을 보완한 방식으로 최근 기울기의 제곱합을 지수이동평균으로 누적하여 학습률을 조정한다.

*'''Adam (Adaptive Moment Estimation)'''
**기울기의 1차 및 2차 모멘트(이동평균)를 이용하여 각 파라미터의 학습률을 자동으로 조정하는 방식이다.
**빠른 수렴과 안정적인 학습을 동시에 제공하여 가장 범용적으로 사용된다.

*'''AdamW (Adam with Weight Decay)'''
**Adam 옵티마이저의 변형으로, L2 정규화 효과를 명확히 분리하여 가중치 감쇠(weight decay)를 별도로 적용한다.
**Adam보다 일반화 성능이 개선되어 최근 대부분의 트랜스포머 기반 모델에서 기본 옵티마이저로 사용된다.
==옵티마이저 선택 시 고려사항==
옵티마이저의 선택과 하이퍼파라미터 설정은 모델 성능과 학습 속도에 큰 영향을 미친다. 다음 요소들을 고려해야 한다.
*학습률(learning rate)의 초기값과 감쇠(learning rate decay) 전략
*미니배치 크기(batch size)와 데이터의 노이즈 수준
*모델 구조(CNN, RNN, Transformer 등)와 데이터 특성
*일반화 성능(generalization)과 수렴 속도(convergence speed)의 균형
==한계 및 최근 동향==
*특정 옵티마이저가 모든 작업에 대해 항상 우수한 성능을 보이지는 않는다.
*일부 적응형(adaptive) 옵티마이저는 빠른 수렴을 보이지만 일반화 성능이 떨어질 수 있다.
*최근에는 옵티마이저, 학습률 스케줄러, 배치 정규화 등을 함께 설계하는 통합 최적화 전략이 연구되고 있다.
*새로운 변형 알고리즘으로 AdaBelief, Lion, Amos optimizer 등이 제안되고 있다.
==같이 보기==
*[[손실 함수]]
*[[배치 정규화]]
*[[학습률 스케줄링]]
*[[가중치 감소]]
*[[신경망]]
*[[딥러닝]]
==각주==
[[분류:인공지능]]