본문 바로가기

강화학습

[강화학습②] 마르코프 리워드 프로세스(Markov Reward Process) 마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스Markov Reward Process가 됩니다. 아래 그림을 보겠습니다. 아이가 잠이 드는 MRP 아까 보았던 아이가 잠이 드는 MP에 빨간 색으로 보상 값이 추가된 것을 확인할 수 있습니다. 이제는 어떤 상태에 도착하게 되면 그에 따르는 보상을 받게 되는 것이죠. 예를 들어 자기 위해서 가만히 누워 있는 것은 아이 입장에서 조금 답답하기 때문에 -1의 보상을 얻습니다. 반면 일어나서 노는 상태는 당장이 즐겁기 때문에 +1의 보상을 받습니다. 눈을 감게 된 것도, 조금씩 잠이 오는 상태도 각각의 보상을 받으며 마침내 잠들게 되면 드디어 목표하던 바를 이루기 때문에 +10의 보상을 받으면서 프로세스는 종료됩니다. 아까 마르코프 프로세스는 .. 더보기
[강화학습①] 마르코프 결정 프로세스(Markov Decision Process) 이번 포스팅에서는 강화 학습이 풀고자 하는 문제에 대해 좀 더 자세하게 다뤄보겠습니다. 아시다시피 강화 학습은 순차적 의사결정 문제를 푸는 방법론이라고 얘기했지만, 사실 아직은 조금 추상적입니다. 순차적 의사결정 문제는 결국 MDP (Markov Decision Process)라는 개념을 통해 더 정확하게 표현할 수 있습니다. 그래서 이번 챕터의 목적은 MDP가 무엇인지 속속들이 이해하는 것입니다. 바로 MDP를 설명하면 조금 복잡하게 느껴질 수 있으니 차근차근 단계를 밟아가며 가장 간단한 개념부터 시작하여 조금씩 복잡해질 것입니다. 그래서 먼저 가장 간단한 마르코프 프로세스(Markov Process)를 설명하고, 마르코프 리워드 프로세스(Markov Reward Process)를 설명한 후에 마지막으.. 더보기
《바닥부터 배우는 강화 학습》 바닥부터 배우는 강화 학습 【 책 소개 】 강화 학습의 기초에 대한 쉽고 정확한 개념 설명 이 책은 강화 학습을 모르는 초보자라도 쉽게 이해할 수 있도록 도와주는 입문서입니다. 무작정 수식과 코드를 설명하는 것이 아닌 강화 학습의 기초 개념부터 탄탄하고 확실하게 설명합니다. 강화 학습의 기본 개념부터 빠져서는 안 되는 중요 이론들과 알파고, 알파고 제로까지 다룹니다. 그리고 실제 유명 게임인 블레이드 & 소울 비무에 직접 강화 학습 적용해 실무에서 배울 수 있는 팁과 노하우를 알아봅니다. 【 대상 독자층 】 - 강화 학습의 기초부터 배우고 싶은 사람 - 강화 학습의 수식, 코드 보다 이론 위주의 내용을 배우고 싶은 사람 - 한 권으로 강화 학습의 기초부터 실무 사례 적용까지 배우고 싶은 사람 【 중요 포.. 더보기