마르코프 결정 프로세스: 두 판 사이의 차이
IT 위키
편집 요약 없음 |
편집 요약 없음 |
||
21번째 줄: | 21번째 줄: | ||
| T || 전이확률, T(s', a, s) | | T || 전이확률, T(s', a, s) | ||
|} | |} | ||
== Q 러닝과의 비교 == | |||
;유사한 목적으로 강화학습에 사용되는 Q Learning | |||
{{MDP와 Q 러닝}} | |||
== 같이 보기 == | == 같이 보기 == |
편집 요약 없음 |
편집 요약 없음 |
||
21번째 줄: | 21번째 줄: | ||
| T || 전이확률, T(s', a, s) | | T || 전이확률, T(s', a, s) | ||
|} | |} | ||
== Q 러닝과의 비교 == | |||
;유사한 목적으로 강화학습에 사용되는 Q Learning | |||
{{MDP와 Q 러닝}} | |||
== 같이 보기 == | == 같이 보기 == |