Notice
Recent Posts
Recent Comments
Link
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- langgrpah
- pinecone
- toolnode
- LangChain
- conditional_edges
- 강화학습
- chat_history
- add_subgraph
- humannode
- agenticrag
- adaptive_rag
- REACT
- removemessage
- update_state
- rl
- rag
- RecSys
- summarize_chat_history
- 강화학습의 수학적 기초와 알고리듬의 이해
- subgraph
- 강화학습의 수학적 기초와 알고리듬 이해
- 추천시스템
- 밑바닥부터시작하는딥러닝 #딥러닝 #머신러닝 #신경망
- Ai
- tool_call_chunks
- Python
- fastapi
- 밑바닥부터 시작하는 딥러닝
- langgraph
- tool_calls
Archives
- Today
- Total
반응형
목록동적계획법 (1)
반응형
타임트리

강화학습의 기본적인 매커니즘을 이해하기 위해서는 동적 계획법(dynamic programming)이라는 문제 해결을 위한 방법론에 익숙해지는 것이 좋다. 따라서, 동적 계획법을 이해하는 데 도움이 되는 수학적 귀납법을 먼저 간단하게 살펴보고 넘어가자. 수학적 귀납법 - $p_1,~p_2,...$를 참 또는 거짓인 명제라고 하자. 이때 1) $p_1$이 참이고 2) 모든 $n\ge1$에 대해 $p_n$이 참일 때 $p_{n+1}$도 참이면, 3) $p_1,~p_2,...$는 모두 참이다. 다음의 식을 수학적 귀납법을 통해 증명해보자. $$p_n: 1 + 2 + \cdots + n = \frac{n(n+1)}{2}$$ 증명 1) $p_1 = \frac{1\cdot2}{2}=1$ (참) 2) $p_n$이 참이..
Reinforcement Learning/강화학습의 수학적 기초와 알고리듬 이해
2022. 3. 27. 03:58