확률적 경사 하강법: 두 판 사이의 차이

IT 위키
(새 문서: 확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 머신러닝 및 딥러닝에서 손실 함수를 최소화하기 위해 훈련 데이터 중 하나의 샘플만을 사용하여 매개변수를 업데이트하는 최적화 알고리즘이다. ==개요== 확률적 경사 하강법은 경사 하강법의 변형 기법으로, 전체 데이터셋이 아닌 단일 샘플을 기준으로 손실 함수의 기울기를 계산하고 그 결과를 즉시 반영해 파라...)
(차이 없음)

2025년 9월 11일 (목) 03:04 판

확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 머신러닝 및 딥러닝에서 손실 함수를 최소화하기 위해 훈련 데이터 중 하나의 샘플만을 사용하여 매개변수를 업데이트하는 최적화 알고리즘이다.

개요

확률적 경사 하강법은 경사 하강법의 변형 기법으로, 전체 데이터셋이 아닌 단일 샘플을 기준으로 손실 함수의 기울기를 계산하고 그 결과를 즉시 반영해 파라미터를 갱신한다. '확률적'이라는 표현은 각 반복마다 선택되는 샘플이 무작위로 결정되기 때문에 붙은 명칭이다.

작동 방식

학습 데이터가 N개 있을 때, 에포크(epoch)마다 다음의 절차를 반복한다.

  • 훈련 샘플 하나를 무작위로 선택한다.
  • 해당 샘플에 대해 순전파와 역전파를 수행하여 기울기를 계산한다.
  • 계산된 기울기를 사용하여 파라미터를 즉시 갱신한다.
  • 전체 샘플에 대해 반복하면 에포크 1회가 완료된다.

특징

  • 매 반복마다 빠르게 파라미터를 갱신하므로 학습 속도가 빠르다.
  • 연산량이 적어 적은 자원으로도 학습이 가능하다.
  • 기울기 추정이 불안정하고 손실 함수의 진동이 심할 수 있다.
  • 불규칙한 경로를 따르기 때문에 특정 지점에 수렴하지 않고 계속 변동할 수 있다.

장점과 단점

  • 장점
    • 계산량이 적고 빠르게 초기 수렴이 가능하다.
    • 온라인 학습이나 실시간 학습에 적합하다.
    • 지역 최솟값을 피할 가능성이 높다.
  • 단점
    • 손실 함수가 불안정하게 진동하며 수렴이 늦을 수 있다.
    • 최적 지점 근처에서 정확한 수렴을 유도하기 어렵다.
    • 학습률 조절이 매우 중요하며, 고정된 학습률은 수렴을 방해할 수 있다.

활용

SGD는 다양한 신경망 구조에서 기본 최적화 알고리즘으로 사용되며, 다음과 같은 개선형 알고리즘의 기반이 된다.

  • 모멘텀(Momentum)
  • Adam
  • RMSprop

이들은 SGD의 단점을 보완하기 위해 고안된 방법들이다.

같이 보기

참고 문헌

  • Ian Goodfellow, Yoshua Bengio, Aaron Courville, 《Deep Learning》, MIT Press
  • Sebastian Raschka, 《Python Machine Learning》, Packt Publishing

각주