지도학습 썸네일형 리스트형 [강화학습①] 마르코프 결정 프로세스(Markov Decision Process) 이번 포스팅에서는 강화 학습이 풀고자 하는 문제에 대해 좀 더 자세하게 다뤄보겠습니다. 아시다시피 강화 학습은 순차적 의사결정 문제를 푸는 방법론이라고 얘기했지만, 사실 아직은 조금 추상적입니다. 순차적 의사결정 문제는 결국 MDP (Markov Decision Process)라는 개념을 통해 더 정확하게 표현할 수 있습니다. 그래서 이번 챕터의 목적은 MDP가 무엇인지 속속들이 이해하는 것입니다. 바로 MDP를 설명하면 조금 복잡하게 느껴질 수 있으니 차근차근 단계를 밟아가며 가장 간단한 개념부터 시작하여 조금씩 복잡해질 것입니다. 그래서 먼저 가장 간단한 마르코프 프로세스(Markov Process)를 설명하고, 마르코프 리워드 프로세스(Markov Reward Process)를 설명한 후에 마지막으.. 더보기 이전 1 다음