본문 바로가기

머신러닝

[강화학습②] 마르코프 리워드 프로세스(Markov Reward Process) 마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스Markov Reward Process가 됩니다. 아래 그림을 보겠습니다. 아이가 잠이 드는 MRP 아까 보았던 아이가 잠이 드는 MP에 빨간 색으로 보상 값이 추가된 것을 확인할 수 있습니다. 이제는 어떤 상태에 도착하게 되면 그에 따르는 보상을 받게 되는 것이죠. 예를 들어 자기 위해서 가만히 누워 있는 것은 아이 입장에서 조금 답답하기 때문에 -1의 보상을 얻습니다. 반면 일어나서 노는 상태는 당장이 즐겁기 때문에 +1의 보상을 받습니다. 눈을 감게 된 것도, 조금씩 잠이 오는 상태도 각각의 보상을 받으며 마침내 잠들게 되면 드디어 목표하던 바를 이루기 때문에 +10의 보상을 받으면서 프로세스는 종료됩니다. 아까 마르코프 프로세스는 .. 더보기
인공지능 수학 공부, 꼭 알아야 할 극한과 미분편! 이번 포스팅에서는 상미분·편미분·연쇄율 등 인공지능에 필요한 여러 가지 미분 관련 지식을 학습합니다. 미분은 한마디로 변화의 비율을 말합니다. 예를 들어 움직이는 물체의 위치를 시간으로 미분하면 그 물체의 속도가 됩니다. 인공지능에서는 다변수함수나 합성함수 등의 조금 복잡한 함수를 미분해야 합니다. 어렵게 느껴질 수도 있지만 이 장에서는 이것들을 하나하나 차근차근 설명합니다. 여러 가지 인공지능 기술의 배경이 되는 이론에 미분은 불가결한 것인데, 이 장에서는 미분의 기본부터 시작해서 다변수로 이뤄진 함수의 미분, 여러 개의 함수로 이뤄진 합성함수의 미분 등을 설명합니다. 복잡한 함수의 미분을 학습함으로써 어떤 파라미터가 전체에 미치는 영향을 예측할 수 있게 됩니다. 이 포스팅에서 미분 설명은 학문으로서의.. 더보기
《멀웨어 데이터 과학》공격 탐지 및 원인 규명 멀웨어 데이터 과학 : 공격 탐지 및 원인 규명 : 【 책 소개 】 이 책은 보안 데이터 과학자인 저자가 멀웨어를 데이터 과학에 적용하여 공격 탐지 및 인텔리전스 시스템을 구축할 때 머신러닝, 통계 및 데이터 시각화 적용하는 방법 등을 알려준다. 정적, 동적 분석과 같은 기본적인 리버스 엔지니어링 개념을 알아보고, 멀웨어 샘플의 코드 유사도를 측정해본다. 또한, scikit-learn, Kears와 같은 머신러닝 프레임워크를 이용해 멀웨어 탐지기를 개발하고, 딥러닝을 응용한 Keras 신경망 멀웨어 탐지기 만들기까지 직접 따라해본다. *모든 코드는 Linux, 파이썬 2.7 환경에서 작성되었다. 코드와 데이터에 액세스하려면 코드, 데이터, 오픈 소스 도구가 모두 세팅 되어 있는 VirtualBox Lin.. 더보기