강화 학습

IT위키

인쇄용 판은 더 이상 지원되지 않으며 렌더링 오류가 있을 수 있습니다. 브라우저 북마크를 업데이트해 주시고 기본 브라우저 인쇄 기능을 대신 사용해 주십시오.

Reinforcement learning
머신러닝의 학습 모델로, 현재 상태에서 어떤 행동(Action)을 하면 가장 보상(Reward)를 많이 받을 지 스스로 학습하는 모델

행동 심리학을 기반으로 고안됨

특징

보상 기반: 행동 심리학 기반, 보상을 통한 행동 유도
목표 지향: 구체적으로 정해진 목표 수행 의도
상호 작용: 데이터가 아닌 반복 수행 및 피드백을 통한 습득

종류

마르코프 결정 프로세스

MDP; Markov Decision Process

특징
- Stochastic: 다음 결과는 확률적으로 결정됨
- Partially Observable: 전체 결정 과정을 조망할 수 없음
구성
- S: 상태들의 유한 집합
- A: 행동들의 유한 집합
- Policy = ㅠ(s) -> S

원본 주소 "https://itwiki.kr/index.php?title=강화_학습&oldid=4439"

인공지능