PyTorch (4) Logistic Regression

æ¬¡ã¯ã€œãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ï¼ˆLogistic Regressionï¼‰ï¼ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ã¯ã€å›žå¸°ã¨ã¤ãã‘ã©åˆ†é¡žã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã€éš ã‚Œå±¤ãŒãªãã€æ´»æ€§åŒ–é–¢æ•°ã«ã‚·ã‚°ãƒ¢ã‚¤ãƒ‰é–¢æ•°ï¼ˆ2ã‚¯ãƒ©ã‚¹åˆ†é¡žã®ã¨ãï¼‰ã€ã‚½ãƒ•ãƒˆãƒžãƒƒã‚¯ã‚¹é–¢æ•°ï¼ˆå¤šã‚¯ãƒ©ã‚¹åˆ†é¡žã®ã¨ãï¼‰ã‚’ä½¿ã£ãŸãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã¨ã—ã¦ãƒ¢ãƒ‡ãƒ«åŒ–ã§ãã‚‹ã€‚Irisã¨MNISTï¼ˆNotebookå‚ç…§ï¼‰ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã§å®Ÿè£…ã—ã¦ã¿ãŸã€‚

Irisãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ

import torch
import torch.nn as nn

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

PyTorchã¨ã¨ã‚‚ã«scikit-learnã®é–¢æ•°ã‚‚ã„ã‚ã„ã‚æ´»ç”¨ã™ã‚‹ã®ã§ã‚¤ãƒ³ãƒãƒ¼ãƒˆã€‚

# hyperparameters
input_size = 4
num_classes = 3
num_epochs = 10000
learning_rate = 0.01

Irisãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¯ç‰¹å¾´é‡ãŒ4ã¤ï¼ˆsepal lengthã€sepal widthã€petal lengthã€petal widthï¼‰ãªã®ã§å…¥åŠ›ãƒ¦ãƒ‹ãƒƒãƒˆæ•°ã¯4ã«ã—ãŸã€‚ã¾ãŸã‚¯ãƒ©ã‚¹æ•°ãŒ3ã¤ï¼ˆSetosaã€Versicolourã€Virginicaï¼‰ãªã®ã§å‡ºåŠ›ãƒ¦ãƒ‹ãƒƒãƒˆæ•°ã¯3ã«ã—ãŸã€‚

iris = load_iris()
X = iris.data
y = iris.target
print(X.shape)  # (150, 4)
print(y.shape)  # (150, )

ãƒ‡ãƒ¼ã‚¿ã®ãƒãƒ¼ãƒ‰ã¯scikit-learnã®load_iris()é–¢æ•°ã§ç°¡å˜ã«ã§ãã‚‹ã€‚è¾žæ›¸ã§è¿”ã£ã¦ãã‚‹ãŒ data ã§ãƒ‡ãƒ¼ã‚¿æœ¬ä½“ãŒ target ã§ã‚¯ãƒ©ã‚¹ãƒ©ãƒ™ãƒ«ãŒå–å¾—ã§ãã‚‹ã€‚ã‚¯ãƒ©ã‚¹ãƒ©ãƒ™ãƒ«ã¯1-of-Kã«ãªã£ã¦ã„ãªã„ã®ã§æ³¨æ„ï¼PyTorchã¯ã‚¯ãƒ©ã‚¹ãƒ©ãƒ™ãƒ«ã‚’è‡ªåˆ†ã§1-of-Kã«å¤‰æ›ã—ãªãã¦ã‚‚ã‚¯ãƒ©ã‚¹ãƒ©ãƒ™ãƒ«ã®ã¾ã¾æ‰±ãˆã‚‹ã€‚

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=5)
print(X_train.shape)  # (100, 4)
print(X_test.shape)   # (50, 4)
print(y_train.shape)  # (100, )
print(y_test.shape)   # (50, )

è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã¨ãƒãƒªãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ã«åˆ†å‰²ã€‚ã“ã‚Œã‚‚scikit-learnã®é–¢æ•°ã‚’ä½¿ãˆã°ç°¡å˜ã«ã§ãã‚‹ã€‚

# ãƒ‡ãƒ¼ã‚¿ã®æ¨™æº–åŒ–
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# print(np.mean(X_train, axis=0))  # [ -2.47274423e-15   3.85247390e-16  -4.26603197e-16  -7.66053887e-17]
# print(np.std(X_train, axis=0))   # [ 1.  1.  1.  1.]

ãƒ‡ãƒ¼ã‚¿ã®å„ç‰¹å¾´é‡ã”ã¨ã«å¹³å‡0ã€æ¨™æº–åå·®1ã«ãªã‚‹ã‚ˆã†ã«ãƒ‡ãƒ¼ã‚¿ã‚’æ¨™æº–åŒ–ã™ã‚‹ã€‚Irisãƒ‡ãƒ¼ã‚¿ã§ã¯æ¨™æº–åŒ–ã—ãªãã¦ã‚‚å¦ç¿’ã¯ã§ããŸã‘ã©ã‚„ã£ãŸã»ã†ãŒå¦ç¿’ãŒå®‰å®šã™ã‚‹ã¨æ€ã†ã€‚print ã—ã¦ã¿ã‚‹ã¨4ã¤ã®ç‰¹å¾´é‡ãã‚Œãžã‚Œã§å¹³å‡ãŒ0ã€æ¨™æº–åå·®ãŒ1ã«ãªã£ã¦ã‚‹ã®ãŒã‚ã‹ã‚‹ã€‚

class LogisticRegression(nn.Module):

    def __init__(self, input_size, num_classes):
        super(LogisticRegression, self).__init__()
        self.linear = nn.Linear(input_size, num_classes)
    
    def forward(self, x):
        out = self.linear(x)
        return out

ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ãƒ¢ãƒ‡ãƒ«ã®å®šç¾©ã€‚è¦‹ãŸç›®ã¯ç·šå½¢å›žå¸°ã®ã¨ãã¨ã¾ã£ãŸãåŒã˜ã€‚å®Ÿéš›ã€å¤šã‚¯ãƒ©ã‚¹ã®ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ã¯ linear ã‚’é€šã—ãŸã‚ã¨ã« softmax ã‚’é€šã™ã®ã ãŒPyTorchã¯ãƒ¢ãƒ‡ãƒ«ã«ã¯å«ã‚ãªã„ã§ãƒã‚¸ãƒƒãƒˆã‚’ãã®ã¾ã¾è¿”ã™ã®ãŒæµå„€ã®ã‚ˆã†ã ã€‚ãªãœã‹ã¨ã„ã†ã¨æå¤±é–¢æ•°ã‚’è¨ˆç®—ã™ã‚‹ torch.nn.CrossEntropyLoss ã®ä¸ã« softmax ã®è¨ˆç®—ãŒå«ã¾ã‚Œã¦ã„ã‚‹ãŸã‚ã€‚

ãªãœã“ã‚“ãªä»•æ§˜ãªã®ã‹ï¼Ÿã¨æ€ã£ã¦èª¿ã¹ã¦ã¿ãŸã‚‰ softmax ãŒå¿…è¦ãªã®ã¯è¨“ç·´æ™‚ã®æå¤±è¨ˆç®—ã®ã¨ãã ã‘ã§ã€æŽ¨è«–æ™‚ã«ã¯å¿…è¦ãªã„ã®ã§å…¥ã‚Œãªã„æ–¹ãŒåŠ¹çŽ‡ãŒã‚ˆã„ã¨ã®ã“ã¨ã€‚æŽ¨è«–æ™‚ã¯ãã‚‚ãã‚‚ softmax ã‚’é€šã—ã¦ã‚ã–ã‚ã–ç¢ºçŽ‡ã«ã—ãªãã¦ã‚‚ãƒã‚¸ãƒƒãƒˆã®ã¾ã¾å¤§å°æ¯”è¼ƒãŒã§ãã‚‹ãŸã‚ã ã€‚

Why does CrossEntropyLoss include the softmax function? - PyTorch Forums

Kerasã ã¨ãƒ¢ãƒ‡ãƒ«ã®æœ€å¾Œã« softmax ã®æ´»æ€§åŒ–é–¢æ•°ã‚‚å«ã‚ã¦ãƒ¢ãƒ‡ãƒ«å‡ºåŠ›ã¯ç¢ºçŽ‡ã«ã—ã¦ã„ãŸã€‚ã“ã‚“ãªæ„Ÿã˜ã§ã€‚

# Kerasã®ä¾‹
model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, activation='softmax')) <= ã“ã“ï¼

ãªã®ã§æŽ¨è«–ã®ã¨ãã‚‚forwardã™ã‚‹ã ã‘ã§ç¢ºçŽ‡ã§å‡ºã¦ããŸã€‚

ä¸Šã®ã‚ˆã†ãªPyTorchã®ãƒ¢ãƒ‡ãƒ«ã ã¨forwardã®å‡ºåŠ›ã¯ç¢ºçŽ‡ã«ãªã£ã¦ãªã„ã®ã§è¦æ³¨æ„ï¼ç¢ºçŽ‡ã«ã—ãŸã„ã¨ãã¯è‡ªåˆ†ã§ nn.functional.softmax() ã‚’ä½¿ã†å¿…è¦ãŒã‚ã‚‹ã€‚ä¸Šã®Forumã«ã‚‚ã‚ã‚‹ã‚ˆã†ã«PyTorchã®å‹•çš„ã‚°ãƒ©ãƒ•ã®ç‰¹æ€§ã‚’ã„ã‹ã—ã¦è¨“ç·´æ™‚ã¨æŽ¨è«–æ™‚ã§åˆ†ã‘ã‚‹ã®ã‚‚ã‚ˆã„ã‹ã‚‚ãã€‚

if self.training:
    # code for training
else:
    # code for inference

æ¬¡ã¯ãƒ¢ãƒ‡ãƒ«ã®ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’ä½œã£ã¦lossã¨optimizerã‚’å®šç¾©ã€‚

model = LogisticRegression(input_size, num_classes)

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

ç¢ºèªã®ãŸã‚nn.CrossEntropyLoss() ã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’è¦‹ã¦ã¿ã‚‹ã¨ softmax ãŒã¡ã‚ƒã‚“ã¨å«ã¾ã‚Œã¦ã„ã‚‹ã®ãŒç¢ºèªã§ãã‚‹ã€‚

def cross_entropy(input, target, weight=None, size_average=True, ignore_index=-100, reduce=True):
    return nll_loss(log_softmax(input, 1), target, weight, size_average, ignore_index, reduce)

æ¬¡ã¯ã„ã‚ˆã„ã‚ˆè¨“ç·´ãƒ«ãƒ¼ãƒ—ï¼ã“ã“ã¯å‰å›žã¨å¤§ä½“åŒã˜ã€‚

def train(X_train, y_train):
    inputs = torch.from_numpy(X_train).float()
    targets = torch.from_numpy(y_train).long()
    
    optimizer.zero_grad()
    outputs = model(inputs)
    
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()
    
    return loss.item()

def valid(X_test, y_test):
    inputs = torch.from_numpy(X_test).float()
    targets = torch.from_numpy(y_test).long()

    outputs = model(inputs)
    val_loss = criterion(outputs, targets)
    
    # ç²¾åº¦ã‚’æ±‚ã‚ã‚‹
    _, predicted = torch.max(outputs, 1)
    correct = (predicted == targets).sum().item()
    val_acc = float(correct) / targets.size(0)

    return val_loss.item(), val_acc

loss_list = []
val_loss_list = []
val_acc_list = []
for epoch in range(num_epochs):
    perm = np.arange(X_train.shape[0])
    np.random.shuffle(perm)
    X_train = X_train[perm]
    y_train = y_train[perm]
    
    loss = train(X_train, y_train)
    val_loss, val_acc = valid(X_test, y_test)
    
    if epoch % 1000 == 0:
        print('epoch %d, loss: %.4f val_loss: %.4f val_acc: %.4f'
              % (epoch, loss, val_loss, val_acc))
    
    # logging
    loss_list.append(loss)
    val_loss_list.append(val_loss)
    val_acc_list.append(val_acc)

ã„ãã¤ã‹æ³¨æ„ç‚¹

ã‚¨ãƒãƒƒã‚¯ã”ã¨ã«ãƒ‡ãƒ¼ã‚¿ã‚’ã‚·ãƒ£ãƒƒãƒ•ãƒ«ã™ã‚‹
PyTorchã§ã¯ãƒ‡ãƒ¼ã‚¿ã¯ FloatTensor ã§ãƒ©ãƒ™ãƒ«ã¯ LongTensor ã«ã™ã‚‹å¿…è¦ãŒã‚ã‚‹ã€‚Irisãƒ‡ãƒ¼ã‚¿ã®ç‰¹å¾´é‡ã¯ float64 (double) åž‹ã«ãªã£ã¦ã„ã‚‹ãŸã‚ ãƒ†ãƒ³ã‚½ãƒ«ã‚’ float() ã§ã‚ãƒ£ã‚¹ãƒˆã™ã‚‹å¿…è¦ãŒã‚ã‚‹ã€‚ãƒ©ãƒ™ãƒ«ã¯ã‚‚ã¨ã‚‚ã¨ int64 (long) åž‹ãªã®ã§ã‚ãƒ£ã‚¹ãƒˆã¯ä¸è¦ã ã£ãŸãŒå¿µã®ãŸã‚ long() ã§ã‚ãƒ£ã‚¹ãƒˆ
criterion = nn.CrossEntropyLoss ã«æ¸¡ã™æ£è§£ãƒ©ãƒ™ãƒ«ã¯ 1-of-Kã«ã™ã‚‹å¿…è¦ãŒãªã„ï¼ 0, 1, 2, 3ã¨ã„ã†ãƒ©ãƒ™ãƒ«ã®ã‚«ãƒ†ã‚´ãƒªã®ã¾ã¾æ¸¡ã›ã‚‹

# plot learning curve
plt.figure()
plt.plot(range(num_epochs), loss_list, 'r-', label='train_loss')
plt.plot(range(num_epochs), val_loss_list, 'b-', label='val_loss')
plt.legend()

plt.figure()
plt.plot(range(num_epochs), val_acc_list, 'g-', label='val_acc')
plt.legend()

f:id:aidiary:20180203120031p:plain f:id:aidiary:20180203120049p:plain