기울기 소실 편집하기
IT위키
편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 | 당신의 편집 | ||
1번째 줄: | 1번째 줄: | ||
== 기울기 소실(Gradient Vanishing)과 폭주(Exploding) == | |||
== 기울기 | |||
역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작져 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않는 현상 | 역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작져 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않는 현상 | ||
반대로 [[RNN]]에서 기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산하는기울기 폭주(Gradient Exploding)도 존재 | 반대로 [[RNN]]에서 기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산하는기울기 폭주(Gradient Exploding)도 존재 | ||
== 기울기 소실 해결방안 == | == 기울기 소실(Gradient Vanishing) 해결방안 == | ||
# [[ReLU]]와 ReLU의 변형(Leaky ReLU 등)을 은닉층의 Activation 함수로 사용 | # [[ReLU]]와 ReLU의 변형(Leaky ReLU 등)을 은닉층의 Activation 함수로 사용 | ||
15번째 줄: | 12번째 줄: | ||
# 층 정규화(Layer Normalization) : 배치정규화는 Feature별로 층정규화는 Layer별로 | # 층 정규화(Layer Normalization) : 배치정규화는 Feature별로 층정규화는 Layer별로 | ||
참조 https://wikidocs.net/61375 | |||