기울기 소실: 두 판 사이의 차이

IT위키
(새 문서: == 기울기 소실(Gradient Vanishing)과 폭주(Exploding) == 역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작져 입력층에 가까운...)
 
편집 요약 없음
 
1번째 줄: 1번째 줄:
== 기울기 소실(Gradient Vanishing)과 폭주(Exploding) ==
[[분류:인공지능]]
;Gradient Vanishing
 
== 기울기 소실과 폭주(Exploding) ==


역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작져 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않는 현상
역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작져 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않는 현상
반대로 [[RNN]]에서 기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산하는기울기 폭주(Gradient Exploding)도 존재
반대로 [[RNN]]에서 기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산하는기울기 폭주(Gradient Exploding)도 존재


== 기울기 소실(Gradient Vanishing) 해결방안 ==
== 기울기 소실 해결방안 ==


# [[ReLU]]와 ReLU의 변형(Leaky ReLU 등)을 은닉층의 Activation 함수로 사용  
# [[ReLU]]와 ReLU의 변형(Leaky ReLU 등)을 은닉층의 Activation 함수로 사용  
12번째 줄: 15번째 줄:
# 층 정규화(Layer Normalization) : 배치정규화는 Feature별로 층정규화는 Layer별로
# 층 정규화(Layer Normalization) : 배치정규화는 Feature별로 층정규화는 Layer별로


참조 https://wikidocs.net/61375
== 참고 문헌 ==
* [https://wikidocs.net/61375 위키독스]

2021년 2월 26일 (금) 21:22 기준 최신판

Gradient Vanishing

기울기 소실과 폭주(Exploding)[편집 | 원본 편집]

역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작져 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않는 현상 반대로 RNN에서 기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산하는기울기 폭주(Gradient Exploding)도 존재

기울기 소실 해결방안[편집 | 원본 편집]

  1. ReLU와 ReLU의 변형(Leaky ReLU 등)을 은닉층의 Activation 함수로 사용
  2. 그래디언트 클리핑(Gradient Clipping) : 기울기 폭주를 막기 위해 임계값을 넘지 않도록 기울기 값을 자름
  3. 가중치 초기화(Weight initialization) : 가중치 초기값을 적절히 조정
  4. 배치 정규화(Batch Normalization) : 인공 신경망의 각 층에 들어가는 입력을 평균과 분산으로 정규화
  5. 층 정규화(Layer Normalization) : 배치정규화는 Feature별로 층정규화는 Layer별로

참고 문헌[편집 | 원본 편집]