3. Finite Markov Decision Processes
데이터사이언스 대학원 강화학습 수업, Deep RL Bootcamp1 를 듣고 정리한 내용입니다.
Markov Decision Processes (MDPs)¶
Markov decision process (MDP) is a discrete-time stochastic control process. 2
마르코프 결정 프로세스에서 행동(Actions)은 현재의 보상(Rewards)에 영향을 줄 뿐만 아니라 다음 상태(States)에도 영향을 준다.
Agent–Environment Interface¶
Agent-Environment Interface에서는 다음과 같은 상황을 서술한다. 매 time stamp
- Agent는 상태(State) 정보
를 받는다. - Agent는 행동(Action)
을 취한다. - 한 스텝 이후(
), Agent는 보상 을 받고 다음 상태 가 결정된다.
따라서 이러한 상호작용은 일련의 시퀀스(혹은 trajectory)
Dynamics of MDP¶
Dynamics function은 두 개의 현재와 다음 상태(
이 함수는 현재 상태, 행동이 주어졌을 때 다음 상태와 보상을 기술한다.
Markov Property¶
"The future is independent of the past given the present."
Markov의 중요한 특성은 현 시점에서 모든 과거는 미래와 독립적인 관계라는 것이다. 상태
MDP dynamics
MDP calculation from dynamics
이 그림은 세 개의 State
상태에서 시작하여 의 행동을 취한 경우, 와 보상 를 얻을 확률은 . 상태에서 행동 을 취했을 때, 로 전환될 확률은 .-
상태에서 행동 의 기댓값:
MDP 프레임워크에서 경계값은 꼭 Agent의 물리적 경계값 일 필요는 없다. 또한, MDP 프레임워크에서 Agent는 환경(Environment)을 임의대로 변경 할 수 없다.
Reward Hypothesis¶
The goal of the agent is the maximization of the expected value of the cumulative sum of a received scalar (reward) signal.
Agent의 최종 목적은 보상 합의 기댓값을 최대화 하는 것이다. 목적을 달성하기 위해서 sub-goal를 추가하는 것이 도움이 될까? 도움이 될 수도 있고 안될 수 도 있다. 예를 들어, 체스게임에서 퀸을 잡는 것이 중요하다는 것을 sub-goal로 두어서 왕을 제외한 다른 모든 말들을 희생시켰다면, 이는 최종 목표인 게임 승리에 도움이 안된다(물론 적은 말들로 달성 했을 수도 있지만...).
Agent 목표 장기적인 보상 합의 최대화를 달성하기 위해서 기대 수익(expected return)을
Expected Reward from difference scenario
여기서
이러한 모형을 absorbing state라고 한다.
Policies and Value Functions¶
Policy는 주어진 상태
Policy가 확률 함수의 경우 선택된 행동의 실패 확률을 보통 noise라고 한다. 예를 들어, 특정 상태
Value Function은 Policy가 주어졌을 때, 상태(혹은 상태-행동 쌍)가 얼마나 좋은 지를 평가하는 함수다. 왜 좋은지를 평가해야하고 좋은 평가는 무엇인지는 앞으로 차차 알아가 본다.
-
policy
하에 State-value function: -
policy
하에 Action-value function:
Bellman Equation¶
벨만 방정식(Bellman Equation)은 현재 상태(
아래 그림은 bellman-backup diagram 이라는 그림인데, Bellman Equation을 잘 설명하고 있다. 즉, policy
Example: Grid-World
아래의 좌측 그림 처럼 지도가 있는데, 네 개의 행동
Optimal Policies and Optimal Value Functions¶
Policy의 비교는 주어진 policy
또한, 최적의 action-value function도 같이 정의할 수 있다.
Bellman Optimality¶
"The value of a state under an optimal policy must equal the expected return for the best action from that state."
이전의 Bellman backup diagram과 다르게 최적 상태-가치(optimal state-value)를 구하기 위해서
또한 Bellman optimality equation은
Example: Grid-World 에서의 optimal value function과 policy
중간의 그림이 optimal state-value 이고 우측은 optimal policy다. 각 state에서 여러 optimal policy를 가질 수 있지만, optimal state-value는 단 하나다. 예를 들어, 좌표 (4, 0)
에서는 N으로 이동하던 E로 이동하던 모두 최적의
ETC¶
두 개의 policy