일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- langgrpah
- summarize_chat_history
- tool_calls
- add_subgraph
- toolnode
- lcel
- rl
- conditional_edges
- rag
- 강화학습
- tool_binding
- langgraph
- 추천시스템
- humannode
- 강화학습의 수학적 기초와 알고리듬 이해
- chat_history
- update_state
- removemessage
- human-in-the-loop
- RecSys
- 밑바닥부터시작하는딥러닝 #딥러닝 #머신러닝 #신경망
- Python
- 강화학습의 수학적 기초와 알고리듬의 이해
- Ai
- conditional_edge
- 밑바닥부터 시작하는 딥러닝
- pinecone
- REACT
- subgraph
- LangChain
- Today
- Total
목록전체 글 (41)
타임트리
이번 게시물에서는 MLP를 사용할 때 발생하는 문제점을 알아보고, 이러한 문제점을 해결하기 위한 방법에 대해서도 함께 다룬다.1. Problems of MLP: Overfitting(1) Model Capacitiy(Complexity) Regression 문제를 가정해보자. Real vlaue의 분포가 3차 함수와 유사할 때, 두 가지 모델을 파라미터 관점에서 생각해보자. $H(x)$는 2개의 파라미터를 갖고 있는 데 반해, $H_2(x)$는 4개로 더 많은 파라미터를 갖고 있다. 이처럼 모델의 파라미터 개수가 증가할수록 즉, 모델이 복잡해질수록 더 복잡한 함수를 근사할 수 있다. 복잡한 현상을 예측하기 위해 MLP의 Model Capacitiy를 크게 만드는 방법은 두 가지가 있다.(1) Laye..
노트북 그래픽카드 중 하나인 MX450에서도 CUDA를 사용한 GPU 연산이 가능할까 궁금해서 설치해봤다. 된다..! 1. CUDA 설치 아래 사이트에 접속해서 본인의 그래픽카드의 Compute capability가 3.5가 넘는지 확인한다. 대부분 nvidia 공식 홈페이지 확인하라고 했는데, MX450은 검색이 안돼서 아래의 위키피디아를 찾아봤다. 다행히 7.5의 compute capability를 갖고 있고, CUDA도 지원한다. https://en.wikipedia.org/wiki/CUDA CUDA - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Parallel computing platform ..
지금까지 배운 내용들을 통해 강화학습의 수학적 기초를 다졌다. 동적 계획법에 대해 살펴보며 재귀식, 가치 함수, 정책, 상태, 행동이 어떻게 구성되는지를 살펴보았고, 강화학습에서 다루는 환경이 불확실성을 가지고 단계별로 진행되기 때문에 확률과정과 MP, MRP, MDP에 대해 살펴보았다. 이러한 수학적 기초를 바탕으로 앞으로는 강화학습 알고리즘에 대해서 학습한다. 우선, 강화학습은 agent와 environment 간 상호작용을 통해 agent가 환경에 대한 정보를 취득해 나아가며 학습하는 방법을 말한다. 그래서 아래 그림과 같이 agent는 매 단계마다 환경으로부터 주어지는 상태 정보를 취득하고 이를 바탕으로 특정 행동을 취한다. 행동을 통해서 agent는 환경으로부터 일종의 보상을 받게 되고, 환경은..
Week5부터는 Markov Decision Process(MDP)를 살펴보고 있다. Week5에서는 MDP의 구성요소(상태 공간, 시간 공간, 행동 공간, 상태전이확률, 보상)를 살펴보았다. Week6에서는 일반적인 상황에서 상태 가치함수와 행동 가치함수 그리고 이들의 벨만 기대 방정식과 함께 벨만 최적 방정식까지 살펴보았다. 특히, 시간 공간이 유한한 finite-horizion MDP 모델에서는 벨만 최적 방정식을 풀기 위해 역진 귀납법을 사용했다. 특히 중요한 부분은 강화학습의 수학적 근간이 되는 Infinite-horizon MDP 모델이다. Infinite-horizon MDP 모델에서는 정상성 가정(stationary assumption)이 중요한데, 보상과 상태전이확률이 시간에 의존하지 않..
지금까지 살펴봤던 내용들을 간단하게 정리해보자. MDP는 동적계획법 중 확률적 동적계획법의 특별한 경우에 속한다. 즉, 순차적인 의사결정 단계를 포함하며, 현재 상태에서 다음 상태로의 전이가 확정적이 아닌 확률적으로 일어난다. MDP의 구성요소로는 의사결정 단계의 집합인 Time space, 확률과정이 취하는 값들의 집합인 State space, 특정 상태에서 취할 수 있는 행돌의 집합인 Action space, 매 단계마다 특정 상태에서 특정 행동을 취했을 때 다음 상태가 될 확률을 나타내는 trainsition probability, 그리고 이때 발생하는 reward와 감가율 $\gamma$가 있었다. 1. MDP 가치함수 MDP는 순차적으로 매 단계마다 의사결정을 내린다(sequential deci..
앞서 학습한 확정적 동적계획법, 확률 과정, 마르코프 프로세스, 마르코프 보상 프로세스는 궁극적으로 마르코프 의사결정 프로세스(Markov Decision Processes: MDP)를 소개하기 위함이었다. 이번 주차에서는 MDP 모델이 무엇인지, 그리고구성요소에 대해 알아보자. 1. 마르코프 의사결정 프로세스 (MDP) 동적계획법은 확정적 동적계획법과 확률적 동적계획법으로 나눠지며, MDP는 확률적 동적계획법의 special case라고 볼 수 있다. 확정적 동적계획법은 앞선 주차에서 학습한 내용처럼 특정 상태에서 행동의 결과가 어떤 상태로 전이될지 이미 알려져있고, 그 상태로만 확정적으로 전이가 된다. 하지만, 확률적 동적계획법은 어떤 상태에서 행동을 취했을 때 다음 상태가 확률적으로 결정되는 경우에..
마르코프 의사결정 프로세스(Markov decision process; MDP) 강화학습의 수학적 근간이 되는 이론적인 배경이다. 하지만 곧바로 MDP는 확률적 동적 계획법과 마르코프 프로세스가 합쳐진 것이므로 MDP를 배우기에 앞서, 마르코프 과정(Markov procss)에 대해 먼저 알아보자. 1. 불확실성 모델링 확률(Probability) 주위에서 발생하는 여러 사건들은 근본적으로 불확실성을 내포 불확실성을 표현하는 수단 불확실성을 확률변수와 확률분포를 사용해 수학적으로 모델링 확률변수와 확률분포 예시) 날씨는 맑음, 흐림, 비로 구성되어 있다고 하자. 날씨라는 불확실성을 내포한 시스템을 모델링하기 위해 날씨의 상태라는 확률변수를 정의하면, 다양한 분석을 가능하게 한다. $X=1$ (맑음), $..
최단 경로 문제(Shortest path problem) 아래 그림과 같이 1번 노드에서 10번 노드까지 최단 거리를 찾는 문제를 생각해보자. 우선 그래프를 살펴보자. 노드끼리 이어진 선은 아크(arc)라고 하며, 화살표(→)로 표시한 아크는 일방통행, 선으로만 표시된 아크는 양방통행을 나타낸다. 또한 아크 옆에 표시된 숫자는 노드에서 노드로 이동까지의 거리 혹은 소요되는 시간으로 볼 수 있다. 여기서는 거리라고 하자. 위와 같은 상황에서 1번 노드에서 10번 노드까지 가장 빨리 이동하는 경로를 찾기 위해서는 어떻게 해야할까? 먼저 가장 단순한 방법은 모든 경로에 대한 거리를 계산하고 비교하는 것이다. 그러나 이 방법은 비효율적이란 걸 금방 알아차릴 수 있다. 이 문제를 동적계획법으로 해결해보자. 동적계..