Q-러닝

IT위키
PE120 (토론 | 기여)님의 2020년 1월 28일 (화) 10:19 판
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
Q-learning; Q Learning;
특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 결정 프로세스 기반 강화 학습 기법