일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- adaptive_rag
- RecSys
- langgrpah
- 강화학습
- tool_calls
- Ai
- tool_call_chunks
- 강화학습의 수학적 기초와 알고리듬 이해
- 밑바닥부터시작하는딥러닝 #딥러닝 #머신러닝 #신경망
- add_subgraph
- Docker
- 밑바닥부터 시작하는 딥러닝
- subgraph
- 추천시스템
- pinecone
- Python
- removemessage
- fastapi
- 강화학습의 수학적 기초와 알고리듬의 이해
- LangChain
- REACT
- summarize_chat_history
- agenticrag
- conditional_edges
- chat_history
- update_state
- toolnode
- langgraph
- rl
- rag
- Today
- Total
타임트리
Week6. MDP-2 본문
지금까지 살펴봤던 내용들을 간단하게 정리해보자. MDP는 동적계획법 중 확률적 동적계획법의 특별한 경우에 속한다. 즉, 순차적인 의사결정 단계를 포함하며, 현재 상태에서 다음 상태로의 전이가 확정적이 아닌 확률적으로 일어난다. MDP의 구성요소로는 의사결정 단계의 집합인 Time space, 확률과정이 취하는 값들의 집합인 State space, 특정 상태에서 취할 수 있는 행돌의 집합인 Action space, 매 단계마다 특정 상태에서 특정 행동을 취했을 때 다음 상태가 될 확률을 나타내는 trainsition probability, 그리고 이때 발생하는 reward와 감가율
1. MDP 가치함수
MDP는 순차적으로 매 단계마다 의사결정을 내린다(sequential decision making). 의사결정을 내린다는 의미는 특정 상태
그런데, MDP는 지금 상태에서 내린 의사결정이 이후의 프로세스에도 영향을 미친다. 즉, 현재 단계에서 어떤 action을 선택하면 좋을지 판단하기 위해서는 이후의 미치는 영향까지 모두 반영한 지표를 사용해야 한다. 이러한 개념을 반영하고 있는 것이 가치함수(value function)다. 그리고 MDP의 가치함수는 상태-가치 함수와 행동-가치 함수 두 가지가 있다.
1.1 상태-가치 함수(State-value function)
상태-가치 함수는 의사결정시점
벨만 기대 방정식(Bellman Expectation Equation)
위 식의 마지막 부분을 보면, 상태-가치 함수
이해를 위해 아래 그림의 예시를 보자.

1.2 행동-가치 함수(Action-value function)
행동-가치 함수는 의사결정시점
위 식을 살펴보면, 현재 상태

상태-가치 함수에서의
이해를 위해 아래 그림의 예시를 보자. 현재 상태

1.3 상태 가치함수와 행동 가치함수의 관계
행동 가치함수는 현재 단계에서만

즉, 확정적일 때는 지금 시점의 행동도 정책을 따르는 것이다. 확률적일 때는 현재 상태에서 가능한 행동 가치함수들의 기대값과 같다. 즉, 행동 가치함수의 모든 행동들에 대한 평균을 취한 것이 상태 가치함수라는 것이다. 상태

위 그림에서 0.2, 0.3, 0.5는 정책
1.4 행동 가치함수와 상태 가치함수의 관계

행동 가치함수와 상태 가치함수와의 관계 역시 위와 같이 정리할 수 있다. 이를 이해하기 위해 아래 그림을 살펴보자.

위 그림은 현재
위와 같은 상황이 주어졌을때,
참고로, 상태 가치함수, 행동 가치함수 그리고 이 둘의 관계는 아래와 같이 증명할 수 있다.



1.5 최적 정책과 최적 가치함수
다시 한 번 우리의 목표를 상기해보자. 우리의 관심은 누적 보상합을 최대화할 수 있는 정책을 찾는 것이다. 우선 누적 보상합을 최대화하는 정책에 대해 정의를 해보자. 시간 공간이 유한한 finite-horizon의 경우, 만약 최적 정책(optimal policy)이 존재한다면, 다음과 같이 정의할 수 있다.

모든 상태
또한, 이때의 가치함수를 최적 가치함수(optimal value function)라고 한다. 모든 상태에 대해서

1.6 벨만 최적 방정식(Bellman optimality equation)
그러면 어떻게 최적 가치함수를 구할 수 있을까? 현실적으로 가능한 정책이 무수히 많기 때문에 모든 정책을 평가한다는 것은 불가능에 가깝다. 따라서, 이를 효과적으로 찾는 재귀 방정식이 있는데 이를 벨만 최적 방정식이라고 한다.

앞서 가치 함수는 다음과 같이 나타낼 수 있었다.
여기서 상태
위 식에서 기대값 부분

즉, 현재 상태
아래 예를 보자. 현재

1.7 Finite-horizon MDP의 해법
그럼 최적 가치함수

이렇게 최적 가치함수 값을 구하면서 함께 최적 가치함수값을 만드는 행동들의 모음이 바로 최적 정책이 된다.
2. Infinite-horizon MDP
앞선 내용들은 시간 공간이 유한한 finite-horizon MDP에 대한 내용이 주를 이뤘다. 이번에는 시간 공간이 무한한 즉, MDP가 무한히 지속되는 infinite-horizon MDP에 대해서 살펴보자. Infinite-horizon MDP는 강화학습에서 가장 중요한 파트 중 하나이다. 추후 살펴보겠지만, Infinite-horizon MDP 모델을 푸는 것을 모델 기반 강화학습(model-based reinforcement learning)이라고 한다.

Infinite-horizon MDP는 프로세스가 무한히 지속되기 때문에, 수학적인 단순성을 위해 정상성(stationary) 가정을 한다. 지금까지 살펴본 내용에서는 보상
정상성 가정
- 보상과 상태전이행렬이 의사결정시점(단계)에 의존하지 않는다고 가정
지금까지 살펴본 정책은 모든 시점에서의 의사결정 규칙을 모아놓은 것이었다. 즉, 의사결정 규칙이 시점에 따라서 달라지기 때문에 동일한 상태

그러나, Infinite-horizon MDP에서 보상과 상태전이확률이 정상성 가정을 만족한다면 최적의 정상 정책(optimal stationary policy)가 존재한다고 알려져있다. 이때 최적의 정상 정책이란, 모든 단계에서 동일한 의사결정 규칙

2.1 Infinite-horizon MDP의 상태가치함수

Infinite-horizon 모델의 경우, 감가율
- 감가율(discouint factor)
: 오직 현재 시점의 보상만을 중요시 함 : 먼 미래의 보상을 현재와 가까운 미래의 보상만큼 중요시 함
- 벨만 기대 방정식(Bellman Expectation Equation)
현재 상태에서의 가치함수와 다음 상태에서 가치함수 간의 관계를 나타내는 벨만 기대 방정식 역시 존재하는데, 정상성 가정을 통해 도출이 훨씬 간결해졌다. 정책

만약 정책

2.2 정책 평가(Policy evaluation)
벨만 기대 방정식을 통해 모든 상태에서의 상태 가치함수 값을 계산할 수 있다. 이처럼 Infinite-horizon MDP에서 정책이 주어졌을 때, 정책에 따른 모든 상태에 대한 가치함수 값을 산출해내는 과정을 정책 평가라고 한다.
예시로

위 식은 Markov Reward Process에서 각 상태의 가치 계산 과정과 동일하다. 왜냐하면, MDP에서 모든 상태에 대해 정책이 주어져 있다면, 즉, 행동이 결정되어 있다면 MRP와 동일하게 되기 때문이다. 또한, 좌변과 우변의
2.3 최적 가치함수(Optimal value function) 와 최적 정책
Inifinite-horizion MDP에서도 최적 가치함수에 대해 정의할 수 있다. 즉, 모든 상태

최적 정책은 모든 상태에 대해서 최적 가치 함수 값을 도출해내는 것을 의미한다.

2.4 벨만 최적 방정식(Bellman optimality equation)
MDP 모델을 통해 최종적으로 구하고자 하는 것은 최적의 정책이라는 의사결정의 규칙이다. 이때 Inifite-horizon의 경우, 앞서 살펴본 finite-horizon MDP의 벨만 최적 방정식에서 시점

또한, 주의해서 볼 부분은 좌변의
만약 벨만 최적 방정식을 만족하는 최적 가치 함수

그 후 모든
2.5 최적 행동 가치함수
최적 행동 가치함수는 상태

위 식의
그런데, 위 식은 앞서 살펴본 벨만 최적 방정식에 포함되어 있다. 결국

'Reinforcement Learning > 강화학습의 수학적 기초와 알고리듬 이해' 카테고리의 다른 글
Week9. 강화학습 알고리즘-1 (0) | 2022.04.06 |
---|---|
Week7. MDP-3 (0) | 2022.04.06 |
Week5. MDP-1 (0) | 2022.04.01 |
Week4. 마르코프 과정 (0) | 2022.03.31 |
Week3. 동적계획법2 (0) | 2022.03.29 |