본문 바로가기

알파고

[강화학습①] 마르코프 결정 프로세스(Markov Decision Process) 이번 포스팅에서는 강화 학습이 풀고자 하는 문제에 대해 좀 더 자세하게 다뤄보겠습니다. 아시다시피 강화 학습은 순차적 의사결정 문제를 푸는 방법론이라고 얘기했지만, 사실 아직은 조금 추상적입니다. 순차적 의사결정 문제는 결국 MDP (Markov Decision Process)라는 개념을 통해 더 정확하게 표현할 수 있습니다. 그래서 이번 챕터의 목적은 MDP가 무엇인지 속속들이 이해하는 것입니다. 바로 MDP를 설명하면 조금 복잡하게 느껴질 수 있으니 차근차근 단계를 밟아가며 가장 간단한 개념부터 시작하여 조금씩 복잡해질 것입니다. 그래서 먼저 가장 간단한 마르코프 프로세스(Markov Process)를 설명하고, 마르코프 리워드 프로세스(Markov Reward Process)를 설명한 후에 마지막으.. 더보기
《바닥부터 배우는 강화 학습》 바닥부터 배우는 강화 학습 【 책 소개 】 강화 학습의 기초에 대한 쉽고 정확한 개념 설명 이 책은 강화 학습을 모르는 초보자라도 쉽게 이해할 수 있도록 도와주는 입문서입니다. 무작정 수식과 코드를 설명하는 것이 아닌 강화 학습의 기초 개념부터 탄탄하고 확실하게 설명합니다. 강화 학습의 기본 개념부터 빠져서는 안 되는 중요 이론들과 알파고, 알파고 제로까지 다룹니다. 그리고 실제 유명 게임인 블레이드 & 소울 비무에 직접 강화 학습 적용해 실무에서 배울 수 있는 팁과 노하우를 알아봅니다. 【 대상 독자층 】 - 강화 학습의 기초부터 배우고 싶은 사람 - 강화 학습의 수식, 코드 보다 이론 위주의 내용을 배우고 싶은 사람 - 한 권으로 강화 학습의 기초부터 실무 사례 적용까지 배우고 싶은 사람 【 중요 포.. 더보기