확률적 경사 하강법: 두 판 사이의 차이
IT 위키
(새 문서: 확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 머신러닝 및 딥러닝에서 손실 함수를 최소화하기 위해 훈련 데이터 중 하나의 샘플만을 사용하여 매개변수를 업데이트하는 최적화 알고리즘이다. ==개요== 확률적 경사 하강법은 경사 하강법의 변형 기법으로, 전체 데이터셋이 아닌 단일 샘플을 기준으로 손실 함수의 기울기를 계산하고 그 결과를 즉시 반영해 파라...) |
(차이 없음)
|
2025년 9월 11일 (목) 03:04 판
확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 머신러닝 및 딥러닝에서 손실 함수를 최소화하기 위해 훈련 데이터 중 하나의 샘플만을 사용하여 매개변수를 업데이트하는 최적화 알고리즘이다.
개요
확률적 경사 하강법은 경사 하강법의 변형 기법으로, 전체 데이터셋이 아닌 단일 샘플을 기준으로 손실 함수의 기울기를 계산하고 그 결과를 즉시 반영해 파라미터를 갱신한다. '확률적'이라는 표현은 각 반복마다 선택되는 샘플이 무작위로 결정되기 때문에 붙은 명칭이다.
작동 방식
학습 데이터가 N개 있을 때, 에포크(epoch)마다 다음의 절차를 반복한다.
- 훈련 샘플 하나를 무작위로 선택한다.
- 해당 샘플에 대해 순전파와 역전파를 수행하여 기울기를 계산한다.
- 계산된 기울기를 사용하여 파라미터를 즉시 갱신한다.
- 전체 샘플에 대해 반복하면 에포크 1회가 완료된다.
특징
- 매 반복마다 빠르게 파라미터를 갱신하므로 학습 속도가 빠르다.
- 연산량이 적어 적은 자원으로도 학습이 가능하다.
- 기울기 추정이 불안정하고 손실 함수의 진동이 심할 수 있다.
- 불규칙한 경로를 따르기 때문에 특정 지점에 수렴하지 않고 계속 변동할 수 있다.
장점과 단점
- 장점
- 계산량이 적고 빠르게 초기 수렴이 가능하다.
- 온라인 학습이나 실시간 학습에 적합하다.
- 지역 최솟값을 피할 가능성이 높다.
- 단점
- 손실 함수가 불안정하게 진동하며 수렴이 늦을 수 있다.
- 최적 지점 근처에서 정확한 수렴을 유도하기 어렵다.
- 학습률 조절이 매우 중요하며, 고정된 학습률은 수렴을 방해할 수 있다.
활용
SGD는 다양한 신경망 구조에서 기본 최적화 알고리즘으로 사용되며, 다음과 같은 개선형 알고리즘의 기반이 된다.
- 모멘텀(Momentum)
- Adam
- RMSprop
이들은 SGD의 단점을 보완하기 위해 고안된 방법들이다.
같이 보기
참고 문헌
- Ian Goodfellow, Yoshua Bengio, Aaron Courville, 《Deep Learning》, MIT Press
- Sebastian Raschka, 《Python Machine Learning》, Packt Publishing