경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
편집을 취소할 수 있습니다.
이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 |
당신의 편집 |
3번째 줄: |
3번째 줄: |
| ;[[머신러닝]]의 학습 모델로, 현재 상태에서 어떤 행동(Action)을 하면 가장 보상(Reward)를 많이 받을 지 스스로 학습하는 모델 | | ;[[머신러닝]]의 학습 모델로, 현재 상태에서 어떤 행동(Action)을 하면 가장 보상(Reward)를 많이 받을 지 스스로 학습하는 모델 |
| * 행동 심리학을 기반으로 고안됨 | | * 행동 심리학을 기반으로 고안됨 |
|
| |
| [[파일:강화 학습.png]]
| |
|
| |
| == 특징 ==
| |
| * 보상 기반: 행동 심리학 기반, 보상을 통한 행동 유도
| |
| * 목표 지향: 구체적으로 정해진 목표 수행 의도
| |
| * 상호 작용: 데이터가 아닌 반복 수행 및 피드백을 통한 습득
| |
|
| |
| == 종류 ==
| |
|
| |
| === [[마르코프 결정 프로세스]] ===
| |
| ;MDP; Markov Decision Process
| |
| * 특징
| |
| ** Stochastic: 다음 결과는 확률적으로 결정됨
| |
| ** Partially Observable: 전체 결정 과정을 조망할 수 없음
| |
| * 구성
| |
| ** S: 상태들의 유한 집합
| |
| ** A: 행동들의 유한 집합
| |
| ** Policy = ㅠ(s) -> S
| |