익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
마르코프 결정 프로세스
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
MDP; Markov Decision Process
목차
1
특징
2
구성
3
Q 러닝과의 비교
4
같이 보기
1 특징
[
편집
|
원본 편집
]
Stochastic: 다음 결과는 확률적으로 결정됨
Partially Observable: 전체 결정 과정을 조망할 수 없음
2 구성
[
편집
|
원본 편집
]
구성
설명
S
상태의 유한 집합
A
행동의 유한 집합
R
보상 기대값, R(s, a)
r
차감 요인, 0~1
T
전이확률, T(s', a, s)
3 Q 러닝과의 비교
[
편집
|
원본 편집
]
유사한 목적으로 강화학습에 사용되는 Q Learning
항목
MDP
Q 러닝
결정 과정
전이확률T(s’,a,s) 계산
미래값(Q) 계산
정책(Policy)
π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠)
π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값
수렴 시까지 V(s)수행
Q 테이블 업데이트
4 같이 보기
[
편집
|
원본 편집
]
머신러닝
강화 학습
은닉 마르코프 모델
분류
:
인공지능
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
이 문서 인용하기
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
인쇄용 판
고유 링크
문서 정보
문서 기록
분류 목록
분류 목록
인공지능