마르코프결정과정 썸네일형 리스트형 [강화학습②] 마르코프 리워드 프로세스(Markov Reward Process) 마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스Markov Reward Process가 됩니다. 아래 그림을 보겠습니다. 아이가 잠이 드는 MRP 아까 보았던 아이가 잠이 드는 MP에 빨간 색으로 보상 값이 추가된 것을 확인할 수 있습니다. 이제는 어떤 상태에 도착하게 되면 그에 따르는 보상을 받게 되는 것이죠. 예를 들어 자기 위해서 가만히 누워 있는 것은 아이 입장에서 조금 답답하기 때문에 -1의 보상을 얻습니다. 반면 일어나서 노는 상태는 당장이 즐겁기 때문에 +1의 보상을 받습니다. 눈을 감게 된 것도, 조금씩 잠이 오는 상태도 각각의 보상을 받으며 마침내 잠들게 되면 드디어 목표하던 바를 이루기 때문에 +10의 보상을 받으면서 프로세스는 종료됩니다. 아까 마르코프 프로세스는 .. 더보기 이전 1 다음