Template:MDP와 Q 러닝

From IT Wiki
Revision as of 22:04, 28 October 2019 by Aimaster (talk | contribs) (새 문서: {| class="wikitable" |- ! 항목 !! MDP !! Q 러닝 |- | 결정 과정 || 전이확률T(s’,a,s) 계산 || 미래값(Q) 계산 |- | 정책(Policy) || π(s) = 𝑎𝑟𝑔𝑚...)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
항목 MDP Q 러닝
결정 과정 전이확률T(s’,a,s) 계산 미래값(Q) 계산
정책(Policy) π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠) π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값 수렴 시까지 V(s)수행 Q 테이블 업데이트