Q-러닝 편집하기
IT위키
편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 | 당신의 편집 | ||
1번째 줄: | 1번째 줄: | ||
[[분류:인공지능]] | [[분류:인공지능]] | ||
;Q-learning; Q Learning; | ;Q-learning ;Q Learning; | ||
;특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 [[마르코프 결정 프로세스]] 기반 [[강화 학습]] 기법 | ;특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 [[마르코프 결정 프로세스]] 기반 [[강화 학습]] 기법 |