도움말닫기
편집할 때 기술적인 문제가 발생했다면 보고해 주세요.
알림 3개닫기

경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.

경고: 이 문서의 오래된 판을 편집하고 있습니다. 이것을 게시하면, 이 판 이후로 바뀐 모든 편집이 사라집니다.

이 편집기가 공식적으로 지원하지 않는 브라우저를 사용하고 있습니다.

LSTM

IT 위키
PE120 (토론 | 기여)님의 2020년 1월 26일 (일) 11:54 판
Long Short Term Memory

RNN의 문제

  • 문장 구성 수 만큼 Hidden Layer 형성하여 매우 Deep한 구조
  • Recurrent에 따른 동일한 가중치(fW)가 곱해지게 되므로 아래 문제 발생
RNN의 수식 표현
ht = fW(ht-1, xt)
  • ht = 새로운 상태
  • fW = 파라미터 W에 대한 활성화 함수
  • ht-1 = 예전 상태
  • xt = 현재 상태의 입력 벡터
  • fW < 1 = Vanishing Gradient
  • fW > 1 = Exploding Gradient
즉, 관련 정보와 그 정보를 사용하는 지점이 먼 경우 학습 능력 저하
    • 장기 기억을 사용하지 못하고 단기 기억만을 사용
    • LSTM(Long Short Term Memory)는 이 문제를 해결


구성 요소

구성 요소 설명
Forget Gate Layer
  • 어떠한 정보를 반영할지에 대한 결정
  • sigmoid 활성화 함수를 통해 0~1사이의 값을 출력
Input Gate Layer
  • 새로운 정보가 cell state에 저장이 될지 결정하는 게이트
  • sigmoid layer, tanh layer로 구성
Update Cell State
  • forget gate와 input gate에서 출력된 값들을 cell state로 업데이트
Output Gate Layer
  • 출력값 결정 단계

Long Short Term Memory

RNN의 문제

  • 문장 구성 수 만큼 Hidden Layer 형성하여 매우 Deep한 구조

  • Recurrent에 따른 동일한 가중치(fW)가 곱해지게 되므로 아래 문제 발생

RNN의 수식 표현

ht = fW(ht-1, xt)

  • ht = 새로운 상태

  • fW = 파라미터 W에 대한 활성화 함수

  • ht-1 = 예전 상태

  • xt = 현재 상태의 입력 벡터

  • fW < 1 = Vanishing Gradient

  • fW > 1 = Exploding Gradient

즉, 관련 정보와 그 정보를 사용하는 지점이 먼 경우 학습 능력 저하

    • 장기 기억을 사용하지 못하고 단기 기억만을 사용

    • LSTM(Long Short Term Memory)는 이 문제를 해결


구성 요소

구성 요소

설명

Forget Gate Layer

  • 어떠한 정보를 반영할지에 대한 결정

  • sigmoid 활성화 함수를 통해 0~1사이의 값을 출력

Input Gate Layer

  • 새로운 정보가 cell state에 저장이 될지 결정하는 게이트

  • sigmoid layer, tanh layer로 구성

Update Cell State

  • forget gate와 input gate에서 출력된 값들을 cell state로 업데이트

Output Gate Layer

  • 출력값 결정 단계