본문 바로가기

IT 정보

[강화학습②] 마르코프 리워드 프로세스(Markov Reward Process)

 

마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스Markov Reward Process가 됩니다. 아래 그림을 보겠습니다.

 

아이가 잠이 드는 MRP

 

아까 보았던 아이가 잠이 드는 MP에 빨간 색으로 보상 값이 추가된 것을 확인할 수 있습니다. 이제는 어떤 상태에 도착하게 되면 그에 따르는 보상을 받게 되는 것이죠. 예를 들어 자기 위해서 가만히 누워 있는 것은 아이 입장에서 조금 답답하기 때문에 -1의 보상을 얻습니다. 반면 일어나서 노는 상태는 당장이 즐겁기 때문에 +1의 보상을 받습니다. 눈을 감게 된 것도, 조금씩 잠이 오는 상태도 각각의 보상을 받으며 마침내 잠들게 되면 드디어 목표하던 바를 이루기 때문에 +10의 보상을 받으면서 프로세스는 종료됩니다.


아까 마르코프 프로세스는 상태의 집합 와 전이 확률 행렬 로 정의 되었는데요, MRP를 정의하기 위해서는 R과 는 2가지 요소가 추가로 필요합니다.


R은 보상 함수를 뜻하고 (Gamma감마)는 감쇠 인자를 가리킵니다. 각각의 요소를 설명해보겠습니다.

 

  • 상태의 집합 S

마르코프 프로세스의 S와 같고, 상태의 집합입니다.

 

  • 전이 확률 행렬 P

마르코프 프로세스의 P와 같고, 상태 s에서 상태 s'으로 갈 확률을 행렬의 형태로 표현한 것입니다.

 

  • 보상 함수 R

R은 어떤 상태 s에 도착했을 때 받게 되는 보상을 의미합니다. 수식으로 표현하면 다음과 같습니다. 

기댓값이 등장한 이유는 특정 상태에 도달 했을 때 받는 보상이 매번 조금씩 다를 수도 있기 때문입니다. 예컨대 어떤 상태에 도달하면 500원짜리 동전을 던져서 앞면이 나오면 500원을 갖고 뒷면이 나오면 갖지 못한다고 할 때, 보상의 값이 매번 바뀌지만 그 기댓값은 250원으로 정해지죠. 아이가 잠이 드는 MRP 예시에서는 항상 정해진 보상을 얻는 상황을 가정하였습니다.

 

 

  • 감쇠 인자γ

 

 

γ는 0에서 1사이의 숫자입니다. 강화 학습에서 미래 얻을 보상에 비해 당장 얻는 보상을 얼마나 더 중요하게 여길 것인지를 나타내는 파라미터입니다. 구체적으로는 미래에 얻을 보상의 값에 γ가 여러 번 곱해지며 그 값을 작게 만드는 역할을 합니다. 어떤 값을 작게 만들기 때문에 감쇠라는 단어가 쓰였습니다. 이에 대해 자세하게 설명하기 전에 먼저 현재부터 미래에 얻게 될 보상의 합을 가리키는 리턴(Return)이라는 개념을 설명하겠습니다. 왜냐하면 γ는 리턴을 이해해야 그 의미를 진정으로 이해할 수 있습니다.

 

 

감쇠된 보상의 합, 리턴

 

MRP에서는 MP와 다르게 상태가 바뀔 때마다 해당하는 보상을 얻습니다. 상태 s0에서 보상 R0를 받고 시작하여 종료 상태인 st에 도착할 때 보상 Rt를 받으며 끝이 납니다. 그러면 s0에서 시작하여 st까지 가는 여정을 다음과 같이 표현해 볼 수 있습니다(여기서 아래 첨자는 타임 스텝, 즉 시간을 의미합니다).

 

이와 같은 하나의 여정을 강화 학습에서는 에피소드(episode)라고 합니다. 이런 표기법을 이용하여 바로 리턴 Gt을 정의할 수 있습니다. 리턴이란 t시점부터 미래에 받을 감쇠된 보상의 합을 말합니다.

보시다시피 현재 타임 스텝이 t라면 그 이후에 발생하는 모든 보상의 값을 더해줍니다. 또 현재에서 멀어질수록, 즉 더 미래에 발생할 보상일수록 γ가 여러 번 곱해집니다. γ는 0에서 1 사이의 실수이기 때문에 여러 번 곱해질수록 그 값은 점점 0에 가까워집니다. 따라서 γ의 크기를 통해 미래에 얻게 될 보상에 비해 현재 얻는 보상에 가중치를 줄 수 있습니다. γ에 대해서는 뒤에서 좀 더 자세히 다루겠습니다.


리턴은 강화 학습에서 정말 중요한 개념입니다. 흔히들 하는 말인 “강화 학습은 보상을 최대화 하도록 학습하는 것이 목적이다”는 엄밀하게 얘기하자면 틀린 말입니다. 강화 학습은 보상이 아니라 리턴을 최대화하도록 학습하는 것입니다. 보상의 합인 리턴이 바로 우리가 최대화하고 싶은 궁극의 목표입니다.


여기서 리턴이 과거의 보상을 고려하지 않고 미래의 보상을 통해서 정의된다는 것을 유념해야 합니다. 우리는 과거의 영광에 취해서는 안 됩니다. 시점 t에 오기까지 그 이전에 100의 보상을 받았건 1000의 보상을 받았건 상관 없습니다. 에이전트의 목적은 지금부터 미래에 받을 보상의 합인 Gt를 최대화 하는 것입니다.

 

 

γ는 왜 필요할까?

 

이제 리턴의 개념을 살펴 보았으니 γ(감마)의 이야기로 돌아오겠습니다. 리턴을 정의할 때 보상을 그냥 더해주는 것이 아니라 감쇠된 보상을 더해줬습니다.

 

γ는 0에서 1 사이의 실수이기 때문에 감마를 여러 번 곱하면 점점 더 0에 가까운 값이 됩니다. 똑같은 +1의 보상이더라도 당장 받는 +1의 보상이 100스텝 후에 받는 +1의 보상보다 훨씬 더 큰 값이 된다는 뜻입니다. 말하자면 미래를 평가 절하해주는 항인 것입니다. 극단적으로 γ=0이라면 미래의 보상은 모두 0이 되기 때문에 이렇게 학습한 에이전트는 매우 근시안적인 에이전트가 됩니다.

 

미래는 생각하지 않고 아주 탐욕적greedy으로 당장의 눈 앞의 이득만 챙기는 것이죠. 반대로 γ=1이라면 매우 장기적인 시야를 갖고 움직이는 에이전트가 됩니다. 현재의 보상과 미래의 보상이 완전히 대등하기 때문입니다. 이쯤 되면 감마의 직관적 의미를 이해했을 텐데요. γ가 꼭 필요한 이유에 대해 3가지 관점에서 이야기해 보겠습니다.

 

 

  • 수학적 편리성 

γ를 사용하는 가장 솔직한 이유는 γ를 1보다 작게 해줌으로써 리턴 Gt가 무한의 값을 가지는 것을 방지할 수 있기 때문입니다. 리턴이 무한한 값을 가질 수 없게 된 덕분에 이와 관련된 여러 이론들을 수학적으로 증명하기가 한결 수월해집니다. 좀 더 쉽게 얘기해보자면 에피소드에서 얻는 각각의 보상의 최댓값이 정해져 있다면, Gt는 유한하다는 겁니다. 예컨대 MRP를 진행하는 도중 +1,-1, +10 등 다양한 값의 보상을 받을 수 있는데 만일 이 보상이 항상 어떤 상수 값 이하임을 보장할 수 있다면 (예를 들어 보상이 아무리 커봐야 +100 보다는 항상 작다!처럼 말이죠) γ덕분에 MRP를 무한한 스텝동안 진행하더라도 리턴 Gt의 값은 절대 무한한 값이 될 수 없습니다. 이후의 내용에서 차차 다루겠지만 우리는 어떤 상태로부터 리턴을 예측하고자 합니다. 이때 리턴이 무한이라면 어느 쪽이 더 좋을지 비교하기도 어렵고, 그 값을 정확하게 예측하기도 어려워집니다. 감마가 1보다 작은 덕분에 이 모든 것이 가능해집니다.

 

 

  • 사람의 선호 반영

제가 여러분에게 당장 5만원권 20장, 총 100만원을 드린다고 생각하면 여러분은 기분이 좋으시겠죠? 하지만 대신에 5년 후에 100만원을 드린다고 약속하면 조금 덜 좋을 것입니다. 심지어 5년 후 약속이 이행되지 않을 확률이 0%도 당장 받는 쪽을 더 선호할 것입니다. 누군가는 당장 100만원을 받아서 은행에 넣어두면 5년 후에는 더 큰 돈이 될 테니 당연한 것 아닌가 싶으실텐데 그렇다면 100만원이 아니라 그에 해당하는 다른 재화여도 좋습니다. 그만큼 사람은 기본적으로 당장 벌어지는 눈앞의 보상을 더 선호한다는 것을 알 수 있습니다.

 

에이전트라고 그러지 않을 이유가 없겠죠. 이런 이유에서 에이전트를 학습하는데 있어서 감마의 개념을 도입합니다.

 

 

  • 미래에 대한 불확실성 반영

미래는 불확실성 투성이입니다. 위의 예시에서 아무리 제가 굳게 약속을 했다해도 그 약속을 지키지 못할 가능성을 배제할 수 없습니다. 게다가 그 약속이 이행된다 하더라도 여러 다른 일들이 벌어질 수 있습니다. 예컨대 우리나라가 파산해 버린다든지(물론 그럴 가능성은 매우 낮을 것입니다), 더 이상 원화를 사용하지 않고 암호 화폐만을 사용한다든지, 로또에 당첨되어 내가 느끼는 100만원의 가치가 작아졌다든지 말입니다. 이처럼 현재와 미래 사이에는 다양한 확률적 요소들이 있고 이로 인해 당장 느끼는 가치에 비해 미래에 느끼는 가치가 달라질 수 있습니다. 그렇기 때문에 미래의 가치에는 불확실성을 반영하고자 감쇠를 해줍니다.

 

《바닥부터 배우는 강화 학습》

 

예스24 / 교보문고 / 알라딘 / 인터파크

 

반응형