Notice
Recent Posts
Recent Comments
Link
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- lcel
- 밑바닥부터시작하는딥러닝 #딥러닝 #머신러닝 #신경망
- langgrpah
- RecSys
- toolnode
- update_state
- summarize_chat_history
- subgraph
- Ai
- tool_binding
- removemessage
- add_subgraph
- chat_history
- human-in-the-loop
- rag
- 강화학습의 수학적 기초와 알고리듬의 이해
- Python
- LangChain
- tool_calls
- humannode
- langgraph
- REACT
- 밑바닥부터 시작하는 딥러닝
- rl
- conditional_edge
- 추천시스템
- 강화학습의 수학적 기초와 알고리듬 이해
- conditional_edges
- pinecone
- 강화학습
Archives
- Today
- Total
반응형
목록동적계획법 (1)
반응형
타임트리
Week2. 동적계획법1
강화학습의 기본적인 매커니즘을 이해하기 위해서는 동적 계획법(dynamic programming)이라는 문제 해결을 위한 방법론에 익숙해지는 것이 좋다. 따라서, 동적 계획법을 이해하는 데 도움이 되는 수학적 귀납법을 먼저 간단하게 살펴보고 넘어가자. 수학적 귀납법 - $p_1,~p_2,...$를 참 또는 거짓인 명제라고 하자. 이때 1) $p_1$이 참이고 2) 모든 $n\ge1$에 대해 $p_n$이 참일 때 $p_{n+1}$도 참이면, 3) $p_1,~p_2,...$는 모두 참이다. 다음의 식을 수학적 귀납법을 통해 증명해보자. $$p_n: 1 + 2 + \cdots + n = \frac{n(n+1)}{2}$$ 증명 1) $p_1 = \frac{1\cdot2}{2}=1$ (참) 2) $p_n$이 참이..
Reinforcement Learning/강화학습의 수학적 기초와 알고리듬 이해
2022. 3. 27. 03:58