마르코프 결정 프로세스: Difference between revisions

From IT Wiki
(새 문서: 분류:인공지능 ;MDP; Markov Decision Process == 특징 == * Stochastic: 다음 결과는 확률적으로 결정됨 * Partially Observable: 전체 결정 과정을 조망할...)
 
No edit summary
 
(One intermediate revision by the same user not shown)
Line 21: Line 21:
| T || 전이확률, T(s', a, s)
| T || 전이확률, T(s', a, s)
|}
|}
== Q 러닝과의 비교 ==
;유사한 목적으로 강화학습에 사용되는 Q Learning
{{MDP와 Q 러닝}}
== 같이 보기 ==
* [[머신러닝]]
* [[강화 학습]]
* [[은닉 마르코프 모델]]

Latest revision as of 22:05, 28 October 2019

MDP; Markov Decision Process

특징[edit | edit source]

  • Stochastic: 다음 결과는 확률적으로 결정됨
  • Partially Observable: 전체 결정 과정을 조망할 수 없음

구성[edit | edit source]

구성 설명
S 상태의 유한 집합
A 행동의 유한 집합
R 보상 기대값, R(s, a)
r 차감 요인, 0~1
T 전이확률, T(s', a, s)

Q 러닝과의 비교[edit | edit source]

유사한 목적으로 강화학습에 사용되는 Q Learning
항목 MDP Q 러닝
결정 과정 전이확률T(s’,a,s) 계산 미래값(Q) 계산
정책(Policy) π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠) π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값 수렴 시까지 V(s)수행 Q 테이블 업데이트

같이 보기[edit | edit source]