Q-러닝: 두 판 사이의 차이
IT위키
(새 문서: 분류:인공지능 ;Q-learning ;Q Learning; ;특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 결정 프로세스 기...) |
편집 요약 없음 |
||
1번째 줄: | 1번째 줄: | ||
[[분류:인공지능]] | [[분류:인공지능]] | ||
;Q-learning ;Q Learning; | ;Q-learning; Q Learning; | ||
;특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 [[마르코프 결정 프로세스]] 기반 [[강화 학습]] 기법 | ;특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 [[마르코프 결정 프로세스]] 기반 [[강화 학습]] 기법 |
2020년 1월 28일 (화) 10:19 기준 최신판
- Q-learning; Q Learning;
- 특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 결정 프로세스 기반 강화 학습 기법