학습률 (인공지능)

IT 위키

학습률(learning rate)은 머신러닝 및 딥러닝에서 모델의 매개변수를 업데이트할 때 사용하는 보폭(step size)을 결정하는 하이퍼파라미터이다. 학습률은 손실 함수의 기울기에 곱해져 파라미터 갱신의 크기를 조절하는 역할을 한다.

정의 및 역할[편집 | 원본 편집]

학습률은 최적화 알고리즘이 손실 함수를 최소화하기 위해 파라미터를 얼마나 크게 변경할지를 정하는 계수이다. 학습률이 너무 작으면 수렴 속도가 느려지고, 너무 크면 손실 함수가 최소값을 지나치거나 발산할 수 있다. 적절한 학습률 설정은 안정적이고 효율적인 학습을 위한 핵심 요소이다.

중요성[편집 | 원본 편집]

학습률은 경사 하강법 계열의 최적화 알고리즘에서 가장 중요한 하이퍼파라미터 중 하나이다. 학습률이 적절하지 않으면 모델이 과소적합되거나, 손실 값이 불안정하게 진동하거나, 학습이 전혀 진행되지 않을 수 있다. 일반적으로 학습 초기에는 큰 학습률을 사용하고, 학습이 진행됨에 따라 점차 줄이는 방식이 사용된다.

조정 방식[편집 | 원본 편집]

학습률은 다음과 같은 방식으로 조정할 수 있다.

  • 고정 학습률: 일정한 값으로 유지한다.
  • 감소 스케줄: 학습이 진행됨에 따라 점진적으로 감소시킨다.
  • 적응형 조정: 알고리즘이 학습률을 자동으로 조정한다. 대표적으로 RMSprop, Adam 등이 있다.

하이퍼파라미터로서의 학습률[편집 | 원본 편집]

학습률은 사전에 설정되는 하이퍼파라미터이며, 실험적으로 최적값을 찾는 것이 일반적이다. 학습률 탐색기(learning rate finder), 그리드 서치, 베이지안 최적화 등 다양한 방식으로 학습률을 튜닝할 수 있다. 적절한 값은 문제의 복잡도, 데이터 규모, 모델 구조, 초기화 방식 등에 따라 달라진다.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Ian Goodfellow, Yoshua Bengio, Aaron Courville, 《Deep Learning》, MIT Press
  • Aurélien Géron, 《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》, O'Reilly Media

각주[편집 | 원본 편집]