확률적 경사 하강법: 두 판 사이의 차이

2025년 9월 11일 (목) 03:04 판

확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 머신러닝 및 딥러닝에서 손실 함수를 최소화하기 위해 훈련 데이터 중 하나의 샘플만을 사용하여 매개변수를 업데이트하는 최적화 알고리즘이다.

개요

확률적 경사 하강법은 경사 하강법의 변형 기법으로, 전체 데이터셋이 아닌 단일 샘플을 기준으로 손실 함수의 기울기를 계산하고 그 결과를 즉시 반영해 파라미터를 갱신한다. '확률적'이라는 표현은 각 반복마다 선택되는 샘플이 무작위로 결정되기 때문에 붙은 명칭이다.

작동 방식

학습 데이터가 N개 있을 때, 에포크(epoch)마다 다음의 절차를 반복한다.

훈련 샘플 하나를 무작위로 선택한다.
해당 샘플에 대해 순전파와 역전파를 수행하여 기울기를 계산한다.
계산된 기울기를 사용하여 파라미터를 즉시 갱신한다.
전체 샘플에 대해 반복하면 에포크 1회가 완료된다.

특징

매 반복마다 빠르게 파라미터를 갱신하므로 학습 속도가 빠르다.
연산량이 적어 적은 자원으로도 학습이 가능하다.
기울기 추정이 불안정하고 손실 함수의 진동이 심할 수 있다.
불규칙한 경로를 따르기 때문에 특정 지점에 수렴하지 않고 계속 변동할 수 있다.

장점과 단점

장점
- 계산량이 적고 빠르게 초기 수렴이 가능하다.
- 온라인 학습이나 실시간 학습에 적합하다.
- 지역 최솟값을 피할 가능성이 높다.
단점
- 손실 함수가 불안정하게 진동하며 수렴이 늦을 수 있다.
- 최적 지점 근처에서 정확한 수렴을 유도하기 어렵다.
- 학습률 조절이 매우 중요하며, 고정된 학습률은 수렴을 방해할 수 있다.

활용

SGD는 다양한 신경망 구조에서 기본 최적화 알고리즘으로 사용되며, 다음과 같은 개선형 알고리즘의 기반이 된다.

모멘텀(Momentum)
Adam
RMSprop

이들은 SGD의 단점을 보완하기 위해 고안된 방법들이다.

같이 보기

참고 문헌

Ian Goodfellow, Yoshua Bengio, Aaron Courville, 《Deep Learning》, MIT Press
Sebastian Raschka, 《Python Machine Learning》, Packt Publishing

각주

익명 사용자

검색

확률적 경사 하강법: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2025년 9월 11일 (목) 03:04 판

목차

개요

작동 방식

특징

장점과 단점

활용

같이 보기

참고 문헌

각주

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

확률적 경사 하강법: 두 판 사이의 차이

2025년 9월 11일 (목) 03:04 판

개요

작동 방식

특징

장점과 단점

활용

같이 보기

참고 문헌

각주

둘러보기

위키 도구

문서 도구

분류 목록