LSTM ä½œã£ã¦ã¿ãŸ - æŠ€è¡“ã‚’ã‹ã˜ã‚‹çŒ«

white-azalea.hatenablog.jp

ã“ã‚Œã®ç¶šãã€‚

é€†ä¼æ’ã®èª¬æ˜Žã‚’é£²ã¿è¾¼ã‚€ã®ã«è¶…çµ¶è‹¦åŠ´ã—ãŸã‚â€¦æ•°å¦åŠ›ç„¡ã„è‡ªåˆ†ã‚’æ¨ã‚€ãã‡ï¼ˆæ±—

å„ç¨®å‹¾é…ã¯é †ä¼æ’å¼ã‚’åå¾®åˆ†å¼è¨ˆç®—ã™ã‚‹å¿…è¦ãŒã‚ã‚Š

å…¥åŠ›ã«ã‹ã‹ã‚‹é‡ã¿å‹¾é… $\frac{\partial E}{\partial W_g}$
å‰ã®å‡ºåŠ›ã«ã‹ã‘ã‚‹å‹¾é… $\frac{\partial E}{\partial V_g}$
ãƒã‚¤ã‚¢ã‚¹å‹¾é… $\frac{\partial E}{\partial B_g}$

å„æ™‚åˆ»ã§ã‚‚ä»¥ä¸‹ã®å‹¾é…ã‚’è¨ˆç®—ã™ã‚‹ã€‚

å…¥åŠ›ã®å‹¾é… $\frac{\partial E}{\partial X^{(t)}}$
å‰ã®æ™‚åˆ»ã®å‡ºåŠ›ã®å‹¾é… $\frac{\partial E}{\partial Y^{(t-1)}}$
å‰ã®æ™‚åˆ»ã®è¨˜æ†¶ã‚»ãƒ«ã®å‹¾é… $\frac{\partial E}{\partial C^{(t-1)}}$

ã“ã®å¾®åˆ†ã‚’ã—ãªãã‚ƒã„ã‘ãªã„â€¦ã†ã‚ãâ€¦
ã£ã¦ã“ã¨ã§ã€å°Žå‡ºéŽç¨‹ã‚’ç«¯æŠ˜ã£ã¦ã—ã¾ã†ã¨

å¿˜å´ã‚²ãƒ¼ãƒˆã¯

$\delta^{(t)}_0 = r^{(t)} c^{(t-1)} a^{(t)}_0 (a - a^{(t)}_0)$

å…¥åŠ›ã‚²ãƒ¼ãƒˆ

$\delta^{(t)}_1 = r^{(t)} a^{(t)}_2 a^{(t)}_1 (1 - a^{(t)}_1)$

æ–°ã—ã„è¨˜æ†¶

$\delta^{(t)}_2 = r^{(t)} a^{(t)}_1 (1 - a^{(t)2}_2)$

å‡ºåŠ›ã‚²ãƒ¼ãƒˆ

$\delta^{(t)}_3 = \frac{\partial E}{\partial y^{(t)}} tanh(c^{(t)}) a^{(t)}_3 (1 - a^{(t)}_3)$

å°Žå‡ºéŽç¨‹ã¨ã‹ç´°ã‹ã„è«–ç†ã¨ã‹ã¯ã“ã‚Œå‚ç…§ã€‚
ã“ã‚Œã‚’è¦‹ãªãŒã‚‰é ‘å¼µã‚Œã°ãªã‚“ã¨ã‹å°Žå‡ºã‚‚ç†è§£ã§ãã‚‹ã€‚

ã¯ã˜ã‚ã¦ã®ãƒ‡ã‚£ãƒ¼ãƒ—ãƒ©ãƒ¼ãƒ‹ãƒ³ã‚°2 Pythonã§å®Ÿè£…ã™ã‚‹å†å¸°åž‹ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯, VAE, GAN (Machine Learning)

ä½œè€…:æˆ‘å¦» å¹¸é•·
SBã‚¯ãƒªã‚¨ã‚¤ãƒ†ã‚£ãƒ–

Amazon

f:id:white-azalea:20211115213353p:plain

ã‚®ã‚¶ã‚®ã‚¶ã—ã¦ã‚‹æ³¢å½¢ãŒå¦ç¿’ãƒ‡ãƒ¼ã‚¿ã€‚
é»„è‰²ç·šãŒãã“ã‹ã‚‰äºˆæ¸¬ã—ãŸå€¤ã€‚

å®Ÿè¡Œçµæžœã¯ã“ã‚“ãªæ„Ÿã˜ã€‚
ã§ã‚‚ã“ã‚Œæ ªä¾¡ã«å–ã‚Šå…¥ã‚Œã‚ˆã†ã¨ã—ãŸã¨ãã€å®Ÿã¯èª¤å·®ãŒåŸ‹ã¾ã‚‰ãªã‹ã£ãŸâ€¦

ã“ã‚ŒãŒãªãœã‹ã¨è¨€ã†ã¨ã€æ ªä¾¡ã‚’èª¿ã¹ã¦ã¿ã‚‹ã¨ã‚ã‹ã‚‹ã®ã ã‘ã©ã€ç±³å›½æ ª 2020-2021ï¼ˆ8æœˆï¼‰ã¾ã§ã¯ãƒˆãƒ¬ãƒ³ãƒ‰ãƒ©ã‚¤ãƒ³ã«æ²¿ã£ãŸä¸Šæ˜‡ãƒˆãƒ¬ãƒ³ãƒ‰ã§ã€å˜ç´”ã«ä¿æŒã—ã¦ã‚Œã°å„²ã‹ã£ãŸã¨ã„ã†çŠ¶æ³ã€‚
ã—ã‹ã—9æœˆã‹ã‚‰ãƒ†ãƒ¼ãƒ‘ãƒªãƒ³ã‚°ã®è©±ãŒæŒã¡ä¸ŠãŒã£ã¦ä¹±é«˜ä¸‹â€¦æ¥å¹´ã¯ã‚¹ã‚¿ã‚°ãƒ•ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ã‚’åŽŸå› ã¨ã—ãŸãƒœãƒƒã‚¯ã‚¹ç›¸å ´ï¼ˆçŸæœŸçš„ãªä¸ŠãŒã‚Šä¸‹ãŒã‚Šã ã‘ã—ã¦ã€å¹³å‡æ ªä¾¡ãŒåœæ»žã™ã‚‹ï¼‰ã¨äºˆæ¸¬ã•ã‚Œã¦ã‚‹ã€‚
æ£ç›´ã“ã®ã‚ˆã†ãªçŠ¶æ³ã‚‚ã‚‚ã¨ã‚‚ã¨ã‚ã£ã¦ã€ã“ã†ã—ãŸå±€é¢ãŒå¤‰ã‚ã‚‹ã‚¿ã‚¤ãƒŸãƒ³ã‚°ã¯ã‚ãã¾ã§æ”¿æ²»ãƒ»çµŒæ¸ˆã‚¤ãƒ™ãƒ³ãƒˆã«ã‚ˆã‚‹ã‹ã‚‰ã€ãã®ã‚¿ã‚¤ãƒŸãƒ³ã‚°ã‚’AIã§äºˆæ¸¬ã™ã‚‹ã“ã¨ãŒé›£ã—ã„ã¨ã„ã†è©±ã€‚

è¦ã™ã‚‹ã«å¤§ããªè»¢æ›æœŸã«ã‚„ã‚Šå§‹ã‚ã‚‹ã¨ç—›ã„ç›®è¦‹ãã†â€¦ã£ã¦ã“ã¨ï¼ˆæ³£ï¼‰

å®Ÿè£…ã¯ä»¥ä¸‹

import numpy as np
import matplotlib.pyplot as plt

n_time = 10  # æ™‚ç³»åˆ—ã®æ•°
n_in = 1     # å…¥åŠ›å±¤ã®ãƒ‹ãƒ¥ãƒ¼ãƒãƒ³æ•°
n_mid = 30   # ä¸é–“å±¤ã®ãƒ‹ãƒ¥ãƒ¼ãƒãƒ³æ•°
n_out = 1    # å‡ºåŠ›å±¤ã®ãƒ‹ãƒ¥ãƒ¼ãƒãƒ³æ•°

eta = 0.01     # å¦ç¿’ä¿‚æ•°
epochs = 101   # å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®å¦ç¿’å›žæ•°
batch_size = 8 # 1å›žã®å¦ç¿’ã®å‡¦ç†æ•°
interval = 10  # çµŒéŽã®è¡¨ç¤ºé–“éš”

def sigmoid(x):
    return 1/(1+np.exp(-x))

# è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®ä½œæˆ
# -2Ï€ã‹ã‚‰2Ï€ã¾ã§ã®æ³¢ç·šä½œæˆ
sin_x = np.linspace(-2*np.pi, 2*np.pi)
# æ³¢ç·šã«ãƒŽã‚¤ã‚ºã‚’åŠ ãˆã‚‹
sin_y = np.sin(sin_x)  + 0.1*np.random.randn(len(sin_x))
# ã‚µãƒ³ãƒ—ãƒ«æ•°
n_sample = len(sin_x)-n_time
# å…¥åŠ›
input_data = np.zeros((n_sample, n_time, n_in))
# æ£è§£ãƒ‡ãƒ¼ã‚¿
correct_data = np.zeros((n_sample, n_out))
for i in range(0, n_sample):
    input_data[i] = sin_y[i : i+n_time].reshape(-1, 1)
    # æ£è§£ã¯å…¥åŠ›ã‚ˆã‚Šã‚‚ä¸€ã¤å¾Œ
    correct_data[i] = sin_y[i+n_time : i+n_time+1]

# LSTMå±¤ 
class LSTMLayer:
    def __init__(self, n_upper, n):
        self.w = np.random.randn(4, n_upper, n) / np.sqrt(n_upper)  # Xavierã®åˆæœŸå€¤
        self.v = np.random.randn(4, n, n) / np.sqrt(n)
        self.b = np.zeros((4, n))

    def forward(self, x, y_prev, c_prev):
        # y_prev, c_prev: å‰ã®æ™‚åˆ»ã®å‡ºåŠ›ã¨è¨˜æ†¶ã‚»ãƒ«
        u = np.matmul(x, self.w) + np.matmul(y_prev, self.v) + self.b.reshape(4, 1, -1)

        a0 = sigmoid(u[0])  # å¿˜å´ã‚²ãƒ¼ãƒˆ
        a1 = sigmoid(u[1])  # å…¥åŠ›ã‚²ãƒ¼ãƒˆ
        a2 = np.tanh(u[2])  # æ–°ã—ã„è¨˜æ†¶
        a3 = sigmoid(u[3])  # å‡ºåŠ›ã‚²ãƒ¼ãƒˆ
        self.gates = np.stack((a0, a1, a2, a3))
        self.c = a0 * c_prev + a1 * a2 # è¨˜æ†¶ã‚»ãƒ«
        self.y = a3 * np.tanh(self.c)  # å‡ºåŠ›
    
    def backward(self, x, y, c, y_prev, c_prev, gates, grad_y, grad_c):   
        a0, a1, a2, a3 = gates
        tanh_c = np.tanh(c)
        r = grad_c + (grad_y*a3) * (1-tanh_c**2)

        # å„deltaå€¤
        delta_a0 = r * c_prev * a0 * (1-a0)
        delta_a1 = r * a2 * a1 * (1-a1)
        delta_a2 = r * a1 * (1 - a2**2)
        delta_a3 = grad_y * tanh_c * a3 * (1 - a3)

        deltas = np.stack((delta_a0, delta_a1, delta_a2, delta_a3))

        # å„ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®å‹¾é…
        self.grad_w += np.matmul(x.T, deltas)
        self.grad_v += np.matmul(y_prev.T, deltas)
        self.grad_b += np.sum(deltas, axis=1)

        # x
        grad_x = np.matmul(deltas, self.w.transpose(0, 2, 1))
        self.grad_x = np.sum(grad_x, axis=0)

        # y_prev
        grad_y_prev = np.matmul(deltas, self.v.transpose(0, 2, 1))
        self.grad_y_prev = np.sum(grad_y_prev, axis=0)
        
        # c_prevã®å‹¾é…
        self.grad_c_prev = r * a0

    def reset_sum_grad(self):
        self.grad_w = np.zeros_like(self.w)
        self.grad_v = np.zeros_like(self.v)
        self.grad_b = np.zeros_like(self.b)

    def update(self, eta):
        self.w -= eta * self.grad_w
        self.v -= eta * self.grad_v
        self.b -= eta * self.grad_b

# å…¨çµåˆ å‡ºåŠ›å±¤
class OutputLayer:
    def __init__(self, n_upper, n):
        self.w = np.random.randn(n_upper, n) / np.sqrt(n_upper)  # Xavierã®åˆæœŸå€¤
        self.b = np.zeros(n)

    def forward(self, x):
        self.x = x
        u = np.dot(x, self.w) + self.b
        self.y = u  # æ’ç‰é–¢æ•°

    def backward(self, t):
        delta = self.y - t
        
        self.grad_w = np.dot(self.x.T, delta)
        self.grad_b = np.sum(delta, axis=0)
        self.grad_x = np.dot(delta, self.w.T) 

    def update(self, eta):
        self.w -= eta * self.grad_w
        self.b -= eta * self.grad_b

# å„å±¤ã®åˆæœŸåŒ–
lstm_layer = LSTMLayer(n_in, n_mid)
output_layer = OutputLayer(n_mid, n_out)

# è¨“ç·´
def train(x_mb, t_mb):
    # é †ä¼æ’ LSTMå±¤
    y_rnn = np.zeros((len(x_mb), n_time+1, n_mid))
    c_rnn = np.zeros((len(x_mb), n_time+1, n_mid))
    gates_rnn = np.zeros((4, len(x_mb), n_time, n_mid))
    y_prev = y_rnn[:, 0, :]
    c_prev = c_rnn[:, 0, :]
    for i in range(n_time):
        x = x_mb[:, i, :]
        lstm_layer.forward(x, y_prev, c_prev)

        y = lstm_layer.y
        y_rnn[:, i+1, :] = y
        y_prev = y

        c = lstm_layer.c
        c_rnn[:, i+1, :] = c
        c_prev = c

        gates = lstm_layer.gates
        gates_rnn[:, :, i, :] = gates

    # é †ä¼æ’ å‡ºåŠ›å±¤
    output_layer.forward(y)

    # é€†ä¼æ’ å‡ºåŠ›å±¤
    output_layer.backward(t_mb)
    grad_y = output_layer.grad_x
    grad_c = np.zeros_like(lstm_layer.c)

    # é€†ä¼æ’ LSTMå±¤
    lstm_layer.reset_sum_grad()
    for i in reversed(range(n_time)):
        x = x_mb[:, i, :]
        y = y_rnn[:, i+1, :]
        c = c_rnn[:, i+1, :]
        y_prev = y_rnn[:, i, :]
        c_prev = c_rnn[:, i, :]
        gates = gates_rnn[:, :, i, :] 

        lstm_layer.backward(x, y, c, y_prev, c_prev, gates, grad_y, grad_c)
        grad_y = lstm_layer.grad_y_prev
        grad_c = lstm_layer.grad_c_prev

    # ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æ›´æ–°
    lstm_layer.update(eta)
    output_layer.update(eta)

# äºˆæ¸¬
def predict(x_mb):
    # é †ä¼æ’ LSTMå±¤
    y_prev = np.zeros((len(x_mb), n_mid))
    c_prev = np.zeros((len(x_mb), n_mid))
    for i in range(n_time):
        x = x_mb[:, i, :]
        lstm_layer.forward(x, y_prev, c_prev)
        y = lstm_layer.y
        y_prev = y
        c = lstm_layer.c
        c_prev = c

    # é †ä¼æ’ å‡ºåŠ›å±¤
    output_layer.forward(y)
    return output_layer.y

# èª¤å·®ã‚’è¨ˆç®—
def get_error(x, t):
    y = predict(x)
    return 1.0/2.0*np.sum(np.square(y - t))  # äºŒä¹—å’Œèª¤å·®

error_record = []
n_batch = len(input_data) // batch_size  # 1ã‚¨ãƒãƒƒã‚¯ã‚ãŸã‚Šã®ãƒãƒƒãƒæ•°
for i in range(epochs):
        
    # å¦ç¿’ 
    index_random = np.arange(len(input_data))
    np.random.shuffle(index_random)  # ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‚’ã‚·ãƒ£ãƒƒãƒ•ãƒ«ã™ã‚‹
    for j in range(n_batch):
        
        # ãƒŸãƒ‹ãƒãƒƒãƒã‚’å–ã‚Šå‡ºã™
        mb_index = index_random[j*batch_size : (j+1)*batch_size]
        x_mb = input_data[mb_index, :]
        t_mb = correct_data[mb_index, :]
        train(x_mb, t_mb)

    # èª¤å·®ã‚’æ±‚ã‚ã‚‹
    error = get_error(input_data, correct_data)
    error_record.append(error)

    # çµŒéŽã®è¡¨ç¤º 
    if i%interval == 0:
        print("Epoch:"+str(i+1)+"/"+str(epochs), "Error:"+str(error))

        predicted = input_data[0].reshape(-1).tolist() # æœ€åˆã®å…¥åŠ›
        for i in range(n_sample):
            x = np.array(predicted[-n_time:]).reshape(1, n_time, 1)
            y = predict(x)
            predicted.append(float(y[0, 0]))  # å‡ºåŠ›ã‚’predictedã«è¿½åŠ ã™ã‚‹

        plt.plot(range(len(sin_y)), sin_y.tolist(), label="Correct")
        plt.plot(range(len(predicted)), predicted, label="Predicted")
        plt.legend()
        plt.show()

plt.plot(range(1, len(error_record)+1), error_record)
plt.xlabel("Epochs")
plt.ylabel("Error")
plt.show()