영상링크: https://youtu.be/MzVlYYGtg0M
Optimal control as a Model of Human Behavior
Optimal control is a mathematical framework for computing control policies that optimize a given objective.
- 함수를 찾아서 데이터를 설명하려고함. 기본적 세팅은 다음과 같음.
- 하지만 이는 적용하기 쉽지 않음. 우리는 목표에 최적화된 행동을 항상 하지 않음. 같은 목표라도 직진하는 경우도 있고, 멀리 돌아갈 때도 있음(결국에 목적에 도달함). 현 프레임워크에서 이를 설정하거나 설명하기 어려움. 어떤 행동이 최적화된 행동인지에 대한 변수자체가 없음.
- 그래서 이를 설명하기 위해 binary 변수 도입함. 최적화인 행동일 때 1, 그렇지 아니할 때 0의 값을 가짐.
- 이렇게 함으로써 suboptimal behavior를 모델링 할 수 있고, inference 알고리즘을 적용하여 control과 planning 문제를 해결할 수 있음. 그리고 stochastic behavior가 왜 선호되는지 설명할 수 있음. 이는 exploration과 transfer learning을 아는데 도움이 됨.
- 그러면 어떻게 inference할까?
- Backward Messeage 계산:
- Policy 계산:
- Forward Message 계산:
Control as Inference
Backward Messages
- 는 transition dynamics이고, 는 observation likelihood임.
- 그러면 제일 앞에 있는 를 풀어서 쓰면 다음과 같음.
- 여기서 를 다시 로 바꿔서 쓸수 있음.
- 그리고 는 action prior이라고 하는데 (policy는 아님) 우선은 uniform distribution으로 가정함. 왜냐면 아무도 어떤 행동을 할지 모르기 때문임. 게다가 수학적으로 해당 항을 지울 수 있음1.
- 따라서 Backward message passing은 다음과 같이 진행된다.
“Backward Message Passing”
* $V_t(s_t) = \log \beta(s_t)$, $Q_t(s_t, a_t) = \log \beta(s_t, a_t)$ 라고 재정의 하자. 따라서 $V_t(s_t) = \log \int \exp \big( Q_t(s_t, a_t) \big) da_t$로 쓸 수 있으며, 이는 **soft value function**이라고 함.
- 가 커짐에 다라서 도 커짐. .
-
- deterministic transition:
- sthocastic case는 차후에 다룸
- Log domain에서 알고리즘을 다시 쓰면 다음과 같음.
“Backward Message Passing(Log Domain)”
### Policy Computation
- 는 action prior이라 무시하고, policy 를 얻을 수 있음.
- Log domain에서 로 쓸 수 있음.
- Temperature 를 도입하면
- 가 0으로 갈 수록 deterministic policy가 되고 greedy policy에 가까움.
Forward Messages
- 에서 는 과 에 의존하지 않으므로 생략 가능.
- 보통 알고 시작함.
- 를 계산하고 싶으면?
Message Intersection
- 예를 들어 그림과 같이 목표지점에 공을 가져다 놓는 Task가 있다.
- Backward message는 목표지점에 도달하기 위한 상태의 확률을 나타내고, Forward message는 처음 상태에서 목표지점에 도달되는 상태를 표현한다(높은 reward 와 함께).
- 그리고 두 메시지의 곱은 목표지점에 도달하기 위한 상태의 확률을 나타낸다.
Control as Variational Inference
- Inference Problem:
- Marginalizaing과 conditioning을 통해 목적 policy 를 계산하고 싶음. “높은 리워드가 주어졌을 때, action probability가 어떻게 되는가?”
- 분포로 를 근사하면 어떻까(단 dynamics 하에서)?
- , 로 두어서 를 로 근사해보자!
“과정”
1
2
3
4
Algorithms for RL as Inference
Q-Learning with soft optimality
Benefits of Soft Optimality
- exploration을 향상시키고 entropy collapse를 방지할 수 있음
- policies를 더 쉽게 fine-tuning 할 수 있음
- 더 로버스트함. 더 많은 state를 커버하기 때문