Deep Learningè¦šãˆæ›¸ãï¼ˆBinaryåŒ–ï¼‰ - å…«è°·å¤§å²³ã®è¦šãˆæ›¸ããƒ

Deep Learningã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ãƒã‚¤ãƒŠãƒªâ€•åŒ–ï¼ˆ-1ã¨1ã«ã‚¨ãƒ³ã‚³ãƒ¼ãƒ‰ï¼‰ã™ã‚‹ã“ã¨ã«ã‚ˆã‚Šã€å¿…è¦ãªãƒ¡ãƒ¢ãƒªå®¹é‡ã‚’æŠ‘ãˆæ¤œå‡ºã‚’é«˜é€ŸåŒ–ã™ã‚‹æ–¹æ³•ãŒã‚ã‚‹ã€‚
æœ‰åãªãƒã‚¤ãƒŠãƒªâ€•åŒ–æ–¹æ³•ã¨ã—ã¦ã¯ã€ä¸‹è¨˜ã®ï¼’ã¤ãŒçŸ¥ã‚‰ã‚Œã¦ã„ã‚‹ã€‚

ï¼‘ï¼‰BinaryConnect:ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿è‡ªä½“ã¯é€£ç¶šå€¤ã§æŒã£ã¦ãŠã„ã¦ã€forwardæ™‚ã«æ±ºå®šçš„ã¾ãŸã¯ç¢ºçŽ‡çš„ã«é‡ã¿ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿wã‚’+1ã¾ãŸã¯-1ã«å¤‰æ›ã™ã‚‹ã€‚æ±ºå®šçš„ãªå¤‰æ›æ–¹æ³•ã¨ã¯ã€wãŒ0ä»¥ä¸Šã®å ´åˆ+1ã€0æœªæº€ã®å ´åˆ-1ã«å¤‰æ›ã™ã‚‹ã‚‚ã®ã§ã‚ã‚‹ã€‚ä¸€æ–¹ã€ç¢ºçŽ‡çš„ãªå¤‰æ›æ–¹æ³•ã¨ã¯ã€ç¢ºçŽ‡p=Ïƒ(w)ï¼ˆhard sigmoidé–¢æ•°ï¼‰ã«å¾“ã£ã¦+1ã«ã—ã€ç¢ºçŽ‡1-pã«å¾“ã£ã¦-1ã«å¤‰æ›ã™ã‚‹ã‚‚ã®ã§ã‚ã‚‹ã€‚ã¤ã¾ã‚Šã€wãŒæ£ã«å¤§ãã„ã»ã©+1ã«ãªã‚‹ç¢ºçŽ‡ãŒé«˜ããªã‚‹ã€‚backwardæ™‚ã¯ãƒã‚¤ãƒŠãƒªåŒ–ã¯è¡Œã‚ãªã„ã‚‚ã®ã®ã€wã®æ›´æ–°æ™‚ã«ã€wã®å€¤ãŒ[-1,1]ã«ãªã‚‹ã‚ˆã†ã«clippingã®æ“ä½œã‚’å…¥ã‚Œã¦ã„ã‚‹ã€‚

è©³ç´°ã«ã¤ã„ã¦ã¯ã€ä¸‹è¨˜ã®è«–æ–‡ã‚’å‚ç…§ã€‚
BinaryConnect: Training Deep Neural Networks with binary weights during propagations
Matthieu Courbariaux, Yoshua Bengio, Jean-Pierre David
http://arxiv.org/abs/1511.00363

ï¼’ï¼‰Binarized Neural Networks:forwardæ™‚ã®ãƒã‚¤ãƒŠãƒªåŒ–ã®æ–¹æ³•ã‚„ã€backwardæ™‚ã¯ãƒã‚¤ãƒŠãƒªåŒ–ã‚’è¡Œã‚ãšclippingã‚’ç”¨ã„ã‚‹ç‚¹ãªã©ã¯ã€Binary Connectã¨åŸºæœ¬çš„ã«ã¯åŒã˜ã€‚ç•°ãªã‚‹ç‚¹ã¯ã€forwardæ™‚ã«ã€convãªã©ã®ç·šå½¢å¤‰æ›ã®å¾Œã«ã€batch normalizationã‚’è¡Œã„åˆ†å¸ƒã‚’æ£è¦åŒ–ã—ãŸå¾Œã«ã€å†åº¦ãƒã‚¤ãƒŠãƒªåŒ–ã‚’è¡Œã†ã¨ã“ã‚ã§ã‚ã‚‹ã€‚ReLUãªã©ã®æ´»æ€§åŒ–é–¢æ•°ã‚’ã‹ã‘ã‚‹å ´åˆã¯ã€ãã®å¾Œã«å†åº¦ãƒã‚¤ãƒŠãƒªåŒ–ã‚’è¡Œã†ã®ã§ã€å„å±¤ã®å‡ºåŠ›(convå±¤ã®å ´åˆã¯ã€ç‰¹å¾´ãƒžãƒƒãƒ—)ãŒãƒã‚¤ãƒŠãƒªã«ãªã‚‹ã€‚
ã•ã‚‰ã«ã€backwardæ™‚ã¯ã€å‹¾é…ã®æŽ¨å®šã«straight-through estimatorã¨ã„ã†ã®ã‚’æŽ¡ç”¨ã—ã¦ãŠã‚Šã€çµ¶å¯¾å€¤ãŒ1ä»¥ä¸‹ã®å‹¾é…ã®ã¿ç”¨ã„ã¦æ›´æ–°ã™ã‚‹ã€‚

è©³ç´°ã«ã¤ã„ã¦ã¯ã€ä¸‹è¨˜ã®è«–æ–‡ã‚’å‚ç…§ã€‚
Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1
Matthieu Courbariaux, Itay Hubara, Daniel Soudry, Ran El-Yaniv, Yoshua Bengio
http://arxiv.org/abs/1602.02830

ä»¥ä¸‹ã¯è«–æ–‡ã‹ã‚‰ã®psuedo codeã®æŠœç²‹ã€‚
f:id:hirotaka_hachiya:20160808211134p:plain

å²¡é‡ŽåŽŸæ°ãŒã€chainerã§Binarized Neural Networksã‚’ç·šå½¢é–¢æ•°ç”¨ã«å®Ÿè£…ã—ãŸã‚‚ã®ã‚’ä¸‹è¨˜ã§å…¬é–‹ã—ã¦ã„ã‚‹ã€‚
https://github.com/hillbig/binary_net

ä¸‹è¨˜ã®ã‚ˆã†ã«ã€full connectedå±¤ã«å®Ÿè£…ã—ã¦ã¿ãŸã€‚

class MnistCNN_binaryLinear(chainer.Chain):

    """An example of convolutional neural network for MNIST dataset.

    """

    def __init__(self, channel=1, c1=16, c2=32, c3=64, f1=256, \
                 f2=512, filter_size1=3, filter_size2=3, filter_size3=3):
        super(MnistCNN_binaryLinear, self).__init__(
            conv1=L.Convolution2D(channel, c1, filter_size1),
            conv2=L.Convolution2D(c1, c2, filter_size2),
            conv3=L.Convolution2D(c2, c3, filter_size3),
            l1=link_binary_linear.BinaryLinear(f1, f2),
            l2=link_binary_linear.BinaryLinear(f2, 10),
            bnorm1=L.BatchNormalization(c1),
            bnorm2=L.BatchNormalization(c2),
            bnorm3=L.BatchNormalization(c3),
            bnorm4=L.BatchNormalization(f2),
            bnorm5=L.BatchNormalization(10)
        )

    def __call__(self, x):
        # param x --- chainer.Variable of array

        x.data = x.data.reshape((len(x.data), 1, 28, 28))

        h = F.relu(self.bnorm1(self.conv1(x)))
        h = F.max_pooling_2d(h, 2)
        h = F.relu(self.bnorm2(self.conv2(h)))
        h = F.max_pooling_2d(h, 2)
        h = F.relu(self.bnorm3(self.conv3(h)))
        h = F.max_pooling_2d(h, 2)
        h = bst.bst((self.bnorm4(self.l1(h))))
        y = self.bnorm5(self.l2(h))
        return y