틀:MDP와 Q 러닝

IT 위키

Aimaster (토론 | 기여)님의 2019년 10월 28일 (월) 22:04 판 (새 문서: {| class="wikitable" |- ! 항목 !! MDP !! Q 러닝 |- | 결정 과정 || 전이확률T(s’,a,s) 계산 || 미래값(Q) 계산 |- | 정책(Policy) || π(s) = 𝑎𝑟𝑔𝑚...)

(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

항목	MDP	Q 러닝
결정 과정	전이확률T(s’,a,s) 계산	미래값(Q) 계산
정책(Policy)	π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠)	π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값	수렴 시까지 V(s)수행	Q 테이블 업데이트

원본 주소 "https://itwiki.kr/index.php?title=틀:MDP와_Q_러닝&oldid=4454"