환경에 대해 전체를 파악하지 못할때 쓰는 방법. 즉 경험을 통해 학습하게 됨. 이 경험은 state, action, reward의 sequence를 뜻함.
1 Monte Carlo 정의
보상 샘플에 기반해 강화학습 문제를 푸는 방법임. 보상을 잘 정의하기 위해서 episodic task에 대해서만 다룸. 그 말은 경험을 단위 episode로 쪼개서 파악하는 것을 뜻함. 그리고 어떻게든 episode는 종료되어야 함. 한 episode가 끝날때 value 추정치와 policy가 변하게 됨. 이는 다시말하면 한스탭(state -> state)마다 업데이트가 아니라 episode to episode마다 업데이트를 시행한다는 말임. 보통 Monte carlo는 random 한 방식을 뜻하지만, 여기서는 complete return을 평균 내는 것을 뜻함
2 Monte carlo 와 non stationary
Monte carlo 방식은 nonstationary함. 이 말은 한 state에서 action을 취해 얻는 reward가 다음 state와 action에 의존적임. 이 문제를 해겨하기 위해 general policy iteration(GPI)를 이용한다. 이는 CH4에서 다룬 내용이다.
3 Monte Carlo Prediction
주어진 policy에 대해 state-value function을 학습하는 방법 부터 다뤄봄. state-value는 기대 보상으로 정의함. 미래 보상을 할인한 형태로 정의 함. 간단한 방법은 기대 보상을 평균내는 것임 는 policy 아래에서 state 의 value임. 이때 한 episode 에서를 여러번 지나 갈 수 있음. 이때 두가지 Monte carlo 방식이 존재함. 1) first-visit MC Method와 2) every-visit MC method가 그것임. 여기서는 first-visit MC를 중심으로 이야기함. first-visit MC는 한 episode에서 특정 state를 두번 이상 방문하면 업데이트 하지 않는다는 뜻. 밑의 식을 제대로 이해했다면 이 설명이 맞음
First-visit MC prediction, for estimating
4 Study Question
- Complete return이 뜻하는 바가 무엇일까?
- 한 episode가 끝났을 때 나오는 모든 return의 합?
- 이 뜻이 맞는듯. 원문에는 TD learning 과 반대라고 한 것을 보면
- 한 episode가 끝났을 때 나오는 모든 return의 합?