class MulLayer():
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
    
    def backward(self, dout):
        dx = dout * self.y   # x와 y를 바꿈
        dy = dout * self.x
        
        return dx, dy


apple = 100
apple_num = 2
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(price)

220.00000000000003


# 역전파
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(dapple, dapple_num, dtax)

2.2 110.00000000000001 200


class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        out = x + y
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy


apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)              # 1
orange_price = mul_orange_layer.forward(orange, orange_num)           # 2
add_price = add_apple_orange_layer.forward(apple_price, orange_price)# 3
price = mul_tax_layer.forward(add_price, tax)                        # 4

# 역전파
dprice = 1
dadd_price, dtax = mul_tax_layer.backward(dprice)                        # 4
dapple_price, dorange_price = add_apple_orange_layer.backward(dadd_price)# 3
dorange, dorange_num = mul_orange_layer.backward(dorange_price)          # 2
dapple, dapple_num = mul_apple_layer.backward(dapple_price)              # 1

print(price)
print(dapple_num, dapple, dorange, dorange_num, dtax)

715.0000000000001
110.00000000000001 2.2 3.3000000000000003 165.0 650


class ReLU:
    def __init__(self):
        self.mask = None
        
    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0
        
        return out
    
    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        
        return dx


class Sigmoid:
    def __init__(self):
        self.out = None
        
    def forward(self, x):
        out = 1 / (1+np.exp(-x))
        self.out = out
        
        return out
    
    def backward(self, dout):
        dx = dout * self.out * (1.0 - self.out)
        
        return dx


import numpy as np
X_dot_W = np.array([[0, 0, 0], [10, 10, 10]])
B = np.array([1, 2, 3])

X_dot_W

array([[ 0,  0,  0],
       [10, 10, 10]])


X_dot_W + B

array([[ 1,  2,  3],
       [11, 12, 13]])


dY = np.array([[1, 2, 3], [4, 5, 6]])
dY

array([[1, 2, 3],
       [4, 5, 6]])


dB = np.sum(dY, axis=0)
dB

array([5, 7, 9])


class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
        
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        return out
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dw = np.dot(self.X.T, dout)
        self.db = np.sum(dout, axis=0)
        return dx


class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None # loss
        self.y = None # softmax의 출력
        self.t = None # 정답 레이블(one-hot vector)
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        return self.loss
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        
        return dx


import numpy as np
from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict

class TwoLayerNet:
    
    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        
        # 계층 생성
        self.layers = OrderedDict()  # 계층 순서대로 저장하기 위함
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])
        
        self.lastLayer = SoftmaxWithLoss()
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)   # 계층 순서대로 input 투입
            
        return x
    
    # x: input, t: true label
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)   # 가장 높은 클래스
        if t.ndim != 1:
            t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y==t) / float(x.shape[0])
        return accuracy
    
    # 수치미분
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        return grads
    
    # 오차역전파법
    def gradient(self, x, t):
        # 순전파 결과
        self.loss(x, t)
        
        # 역전파
        dout = 1
        dout = self.lastLayer.backward(dout)  # y-t
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)
            
        # save results
        grads = {}
        grads['W1'] = self.layers['Affine1'].dW
        grads['b1'] = self.layers['Affine1'].db
        grads['W2'] = self.layers['Affine2'].dW
        grads['b2'] = self.layers['Affine2'].db
        
        return grads


import numpy as np
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=28*28, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

# 각 가중치 차이의 절댓값 평균
for k in grad_numerical.keys():
    diff = np.average(np.abs(grad_backprop[k] - grad_numerical[k]))
    print(k + ":" + str(diff))

W1:3.875420808505613e-10
b1:2.4658489279345657e-09
W2:5.49885896567171e-09
b2:1.3967237864342952e-07


import numpy as np
from dataset.mnist import load_mnist

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=28*28, hidden_size=50, output_size=10)

iter_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iter_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 오차역전파법으로 기울기 구하기
    grad = network.gradient(x_batch, t_batch)
    
    # 갱신
    for k in ('W1', 'b1', 'W2', 'b2'):
        network.params[k] -= learning_rate * grad[k]
        
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print('train accuracy: {:.4f}, test accuracy: {:.4f}'.format(train_acc, test_acc))

train accuracy: 0.1587, test accuracy: 0.1568
train accuracy: 0.9048, test accuracy: 0.9098
train accuracy: 0.9254, test accuracy: 0.9277
train accuracy: 0.9386, test accuracy: 0.9376
train accuracy: 0.9449, test accuracy: 0.9437
train accuracy: 0.9533, test accuracy: 0.9524
train accuracy: 0.9590, test accuracy: 0.9578
train accuracy: 0.9644, test accuracy: 0.9608
train accuracy: 0.9680, test accuracy: 0.9646
train accuracy: 0.9698, test accuracy: 0.9641
train accuracy: 0.9728, test accuracy: 0.9679
train accuracy: 0.9745, test accuracy: 0.9673
train accuracy: 0.9756, test accuracy: 0.9693
train accuracy: 0.9764, test accuracy: 0.9694
train accuracy: 0.9787, test accuracy: 0.9715
train accuracy: 0.9791, test accuracy: 0.9719
train accuracy: 0.9804, test accuracy: 0.9715

인스턴스 변수	설명
params	딕셔너리 변수로, 신경망의 매개변수 보관
layers	순서가 있는 딕셔너리 변수로, 신경망의 계층을 보관
lastLayer	신경망의 마지막 계층

메서드	설명
init()	초기화 수행
predict()	예측을 수행
loss()	손실함수 값 계산
accuracy()	정확도 계산
numerical_gradient()	가중치 매개변수의 기울기를 수치 미분 방정식으로 계산
gradient()	가중치 매개변수의 기울기를 오차역전파법으로 계산

CUDA 설치 및 Tesorflow, PyTorch (0)	2022.04.12
5장 어파인 변환 추가 (0)	2022.02.04
4장 신경망 학습 (3)	2021.12.29
3장 신경망(2) (0)	2021.12.26
3장 신경망(1) (0)	2021.12.23

타임트리

타임트리

5장 오차역전파법 본문

5장 오차역전파법

5.1 계산 그래프¶

5.1.1 계산 그래프로 풀다¶

5.1.2 국소적 계산¶

5.1.3 왜 계산 그래프로 푸는가?¶

5.2 연쇄법칙¶

5.2.1 계산 그래프의 역전파¶

5.2.2 연쇄법칙이란?¶

5.2.3 연쇄법칙과 계산 그래프¶

5.3 역전파¶

5.3.1 덧셈 노드의 역전파¶

5.3.2 곱셈 노드의 역전파¶

5.4 단순한 계층 구현하기¶

5.4.1 곱셈 계층¶

5.4.2 덧셈 계층¶

5.5 활성화 함수 계층 구현하기¶

5.5.1 ReLU 계층¶

5.5.2 Sigmoid 계층¶

5.6 Affine / Softmax 계층 구현하기¶

5.6.1 Affine 계층¶

5.6.2 배치용 Affine 계층¶

5.6.3 Softmax-with-Loss 계층¶

5.7 오차역적파법 구현하기¶

5.7.1 신경망 학습의 전체 그림¶

5.7.2 오차역전파법을 적용한 신경망 구현하기¶

5.7.3 오차역적파법으로 구한 기울기 검증하기¶

5.7.4 오차역전파법을 사용한 학습 구현하기¶

5.8 정리¶

'Deep Learning > 밑바닥부터 시작하는 딥러닝1' 카테고리의 다른 글

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31