마르코프 결정 프로세스: 두 판 사이의 차이
IT위키
편집 요약 없음 |
편집 요약 없음 |
||
21번째 줄: | 21번째 줄: | ||
| T || 전이확률, T(s', a, s) | | T || 전이확률, T(s', a, s) | ||
|} | |} | ||
== Q 러닝과의 비교 == | |||
;유사한 목적으로 강화학습에 사용되는 Q Learning | |||
{{MDP와 Q 러닝}} | |||
== 같이 보기 == | == 같이 보기 == |
2019년 10월 28일 (월) 22:05 기준 최신판
- MDP; Markov Decision Process
특징[편집 | 원본 편집]
- Stochastic: 다음 결과는 확률적으로 결정됨
- Partially Observable: 전체 결정 과정을 조망할 수 없음
구성[편집 | 원본 편집]
구성 | 설명 |
---|---|
S | 상태의 유한 집합 |
A | 행동의 유한 집합 |
R | 보상 기대값, R(s, a) |
r | 차감 요인, 0~1 |
T | 전이확률, T(s', a, s) |
Q 러닝과의 비교[편집 | 원본 편집]
- 유사한 목적으로 강화학습에 사용되는 Q Learning
항목 | MDP | Q 러닝 |
---|---|---|
결정 과정 | 전이확률T(s’,a,s) 계산 | 미래값(Q) 계산 |
정책(Policy) | π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠) | π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎) |
최적 값 | 수렴 시까지 V(s)수행 | Q 테이블 업데이트 |