익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
틀:MDP와 Q 러닝
IT 위키
이름공간
틀
토론
더 보기
더 보기
문서 행위
읽기
원본 편집
역사
Aimaster
(
토론
|
기여
)
님의 2019년 10월 28일 (월) 22:04 판
(새 문서: {| class="wikitable" |- ! 항목 !!
MDP
!!
Q 러닝
|- | 결정 과정 || 전이확률T(s’,a,s) 계산 || 미래값(Q) 계산 |- | 정책(Policy) || π(s) = 𝑎𝑟𝑔𝑚...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
항목
MDP
Q 러닝
결정 과정
전이확률T(s’,a,s) 계산
미래값(Q) 계산
정책(Policy)
π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠)
π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값
수렴 시까지 V(s)수행
Q 테이블 업데이트
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
인쇄용 판
고유 링크
문서 정보
문서 기록