익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
틀:MDP와 Q 러닝
IT 위키
이름공간
틀
토론
더 보기
더 보기
문서 행위
읽기
원본 편집
역사
항목
MDP
Q 러닝
결정 과정
전이확률T(s’,a,s) 계산
미래값(Q) 계산
정책(Policy)
π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠)
π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값
수렴 시까지 V(s)수행
Q 테이블 업데이트
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
인쇄용 판
고유 링크
문서 정보
문서 기록