지역 최소값 (인공지능)

IT 위키

지역 최소값(local minima)은 머신러닝 및 딥러닝에서 사용하는 손실 함수(loss function)의 매개변수 공간(parameter space) 내에서, 해당 점 근방에서는 손실 값이 최소인 지점을 가리키는 개념이다. 최적화를 통해 모델이 도달하는 위치가 전역 최소값이 아니더라도, 이러한 지역 최소값이 될 수 있다.

정의[편집 | 원본 편집]

수학적으로 f가 실수값 함수일 때, 점 x₀가 지역 최소값이라는 것은 x₀ 주변의 충분히 작은 범위 내의 모든 x에 대해 f(x₀) ≤ f(x)가 성립하는 경우를 말한다.

전역 최소값과의 차이점[편집 | 원본 편집]

전역 최소값(global minimum)은 손실 함수의 전체 도메인(domain)에서 가장 작은 값을 나타내는 지점이다. 반면 지역 최소값은 해당 근방(neighborhood) 내에서만 최소인 지점을 말하며, 전역 최소값이 아닐 수도 있다.

최적화 관점에서의 의미[편집 | 원본 편집]

  • 경사 하강법 등 반복적 최적화 알고리즘은 매개변수 업데이트를 통해 손실을 줄여 나가다가 기울기(gradient)가 0에 가까워지는 지점에 수렴할 수 있다.
  • 이 지점이 지역 최소값일 경우, 더 나은 전역 최소값으로 이동하지 못하고 학습이 멈추는 현상이 발생할 수 있다.
  • 하지만 심층 신경망에서는 고차원 최적화 공간의 특성으로 인해, 실제로는 지역 최소값보다 안장점(saddle point)이 더 큰 문제를 일으킬 수 있다.

관리 및 대응 방법[편집 | 원본 편집]

  • 여러 번의 초기화(random restarts)와 앙상블 방식으로 지역 최소값에 빠지는 것을 완화할 수 있다.
  • 학습률 조정, 모멘텀, 확률적 경사 하강법(SGD)과 같은 방법은 최적화 과정을 보다 불안정하게 만들어 지역 최소값을 벗어나게 돕는다.
  • 고급 최적화 알고리즘(예: Adam, RMSprop)도 지역 최소값 문제를 일부 완화한다.

중요성[편집 | 원본 편집]

  • 지역 최소값에 수렴한다고 해서 반드시 나쁜 결과만은 아니다. 실제로 학습된 신경망의 지역 최소값은 일반화 성능이 우수한 경우가 많다.
  • 특히 전역 최소값에 도달하는 것이 오히려 과적합(overfitting)을 초래할 수 있다는 통계적 관점도 존재한다.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Kenji Kawaguchi 외, “Every Local Minimum Value is the Global Minimum Value of Induced Model in Non-convex Machine Learning” (arXiv, 2019)
  • Yann Dauphin 외, “Identifying and attacking the saddle point problem in high-dimensional non-convex optimization” (arXiv, 2014)

각주[편집 | 원본 편집]