본문 바로가기

딥러닝

[강화학습①] 마르코프 결정 프로세스(Markov Decision Process) 이번 포스팅에서는 강화 학습이 풀고자 하는 문제에 대해 좀 더 자세하게 다뤄보겠습니다. 아시다시피 강화 학습은 순차적 의사결정 문제를 푸는 방법론이라고 얘기했지만, 사실 아직은 조금 추상적입니다. 순차적 의사결정 문제는 결국 MDP (Markov Decision Process)라는 개념을 통해 더 정확하게 표현할 수 있습니다. 그래서 이번 챕터의 목적은 MDP가 무엇인지 속속들이 이해하는 것입니다. 바로 MDP를 설명하면 조금 복잡하게 느껴질 수 있으니 차근차근 단계를 밟아가며 가장 간단한 개념부터 시작하여 조금씩 복잡해질 것입니다. 그래서 먼저 가장 간단한 마르코프 프로세스(Markov Process)를 설명하고, 마르코프 리워드 프로세스(Markov Reward Process)를 설명한 후에 마지막으.. 더보기
인공지능 수학 공부, 꼭 알아야 할 극한과 미분편! 이번 포스팅에서는 상미분·편미분·연쇄율 등 인공지능에 필요한 여러 가지 미분 관련 지식을 학습합니다. 미분은 한마디로 변화의 비율을 말합니다. 예를 들어 움직이는 물체의 위치를 시간으로 미분하면 그 물체의 속도가 됩니다. 인공지능에서는 다변수함수나 합성함수 등의 조금 복잡한 함수를 미분해야 합니다. 어렵게 느껴질 수도 있지만 이 장에서는 이것들을 하나하나 차근차근 설명합니다. 여러 가지 인공지능 기술의 배경이 되는 이론에 미분은 불가결한 것인데, 이 장에서는 미분의 기본부터 시작해서 다변수로 이뤄진 함수의 미분, 여러 개의 함수로 이뤄진 합성함수의 미분 등을 설명합니다. 복잡한 함수의 미분을 학습함으로써 어떤 파라미터가 전체에 미치는 영향을 예측할 수 있게 됩니다. 이 포스팅에서 미분 설명은 학문으로서의.. 더보기
《바닥부터 배우는 강화 학습》 바닥부터 배우는 강화 학습 【 책 소개 】 강화 학습의 기초에 대한 쉽고 정확한 개념 설명 이 책은 강화 학습을 모르는 초보자라도 쉽게 이해할 수 있도록 도와주는 입문서입니다. 무작정 수식과 코드를 설명하는 것이 아닌 강화 학습의 기초 개념부터 탄탄하고 확실하게 설명합니다. 강화 학습의 기본 개념부터 빠져서는 안 되는 중요 이론들과 알파고, 알파고 제로까지 다룹니다. 그리고 실제 유명 게임인 블레이드 & 소울 비무에 직접 강화 학습 적용해 실무에서 배울 수 있는 팁과 노하우를 알아봅니다. 【 대상 독자층 】 - 강화 학습의 기초부터 배우고 싶은 사람 - 강화 학습의 수식, 코드 보다 이론 위주의 내용을 배우고 싶은 사람 - 한 권으로 강화 학습의 기초부터 실무 사례 적용까지 배우고 싶은 사람 【 중요 포.. 더보기