BatchNormalizationã®åˆå‡ºè«–æ–‡ãƒ¡ãƒ¢

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
arXiv:https://arxiv.org/abs/1502.03167

Internal Covariance Shiftã®å•é¡Œ

ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã§ã¯ï¼Œå…¥åŠ›ã¨ãªã‚‹ãƒ‡ãƒ¼ã‚¿ã®åˆ†å¸ƒãŒç™½è‰²åŒ–ã•ã‚Œã¦ã„ã‚‹ã¨å¦ç¿’ãŒæ—©ãé€²ã‚€ï¼Ž ç‰¹å¾´ã‚’ç„¡ç›¸é–¢åŒ–ã—ï¼Œå¹³å‡0ï¼Œåˆ†æ•£1ã¨ã™ã‚‹ã“ã¨ã¯ç”»åƒå‡¦ç†ã§ã¯ç‰¹ã«ã‚ˆãè¡Œã†ï¼Ž

ã—ã‹ã—ï¼ŒéšŽå±¤çš„ãªãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã§ã¯ï¼Œå…¥åŠ›å±¤ã§ã®å…¥åŠ›ãƒ‡ãƒ¼ã‚¿ãŒç™½è‰²åŒ–ã•ã‚Œã¦ã„ãŸã¨ã—ã¦ã‚‚ï¼Œ é‡ã¿ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã¯æ›´æ–°ã•ã‚Œã¦ã„ããŸã‚ï¼Œå¾Œå±¤ã§ã¯å¸¸ã«åˆ†å¸ƒãŒå¤‰åŒ–ã™ã‚‹å…¥åŠ›ã‚’ã‚‚ã¨ã«å¦ç¿’ã™ã‚‹ã“ã¨ã«ãªã‚‹ï¼Ž
ã›ã£ã‹ããƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’å¦ç¿’ã—ã¦ã‚‚ã€æ–°ãŸãªå…¥åŠ›åˆ†å¸ƒã«åˆã‚ã›ã¦å†é©å¿œã•ã›ãªã‘ã‚Œã°ãªã‚‰ãšã€ç„¡é§„ã¨ãªã£ã¦ã—ã¾ã†ã€‚ ã“ã®ç¾è±¡ã‚’è‘—è€…ã‚‰ã¯ï¼Œ internal covariance shift ã¨å‘¼ã‚“ã§ã„ã‚‹ï¼Ž

åˆ†å¸ƒã‚’ã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ«ã—ãªã„ã“ã®ã‚ˆã†ãªå ´åˆã«ã¯ã€å‹¾é…æ¶ˆå¤±å•é¡Œã‚‚èµ·ãã‚„ã™ããªã‚‹ã€‚
ã“ã®ã¨ãã«ã¯ï¼Œ

å¦ç¿’çŽ‡ã‚’å°ã•ãè¨å®šã™ã‚‹
é‡ã¿ã®åˆæœŸåŒ–ã‚’æ³¨æ„æ·±ãè¡Œã†

ãªã©ã®å‡¦ç½®ã‚’è¡Œã†å¿…è¦ãŒã‚ã‚‹ã€‚
ãã“ã§ã“ã®è«–æ–‡ã§ã¯ä¸Šè¨˜ã®å•é¡Œã‚’å›žé¿ã™ã‚‹ã€Batch Normalizationã‚’ææ¡ˆã—ã¦ã„ã‚‹ã€‚
Batch Normalizationã§ã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ï¼Œ ãƒŸãƒ‹ãƒãƒƒãƒå†…ã§å¹³å‡ã‚’0ã«ï¼Œåˆ†æ•£ã‚’1ã«ã™ã‚‹æ“ä½œã‚’è¡Œã†ï¼Ž

f:id:yusuke_ujitoko:20170616154548p:plain:w400

ä¸Šå›³ã®æœ€å¾Œã®è¡Œã‚’è¦‹ã‚‹ã¨ï¼Œ gamma ã¨ beta ã‚’æŽ›ã‘ã¦ç´°ã‹ã„èª¿æ•´ãŒã§ãã‚‹ã‚ˆã†ã«ãªã£ã¦ã„ã‚‹ï¼Ž ãŸã¨ãˆã°ï¼ŒBatch Normalizationã®åŠ¹æžœã‚’ã‚ãƒ£ãƒ³ã‚»ãƒ«ã™ã‚‹ã“ã¨ã‚‚ã§ãã‚‹ ï¼ˆgamma ã‚’æ¨™æº–åå·®ã«è¨å®šã—ï¼Œbetaã‚’å¹³å‡ã«è¨å®šã™ã‚‹ï¼‰

ãŸã ã—ï¼Œã“ã®gammaã¨betaã¯å¦ç¿’ã§ãã‚‹ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã¨ãªã£ã¦ã„ã‚‹ãŸã‚ï¼Œ äººãŒè‡ªç”±ã«æ±ºã‚ã‚‰ã‚Œã‚‹è¨³ã§ã¯ãªã„ï¼Ž å˜ç´”ã«è¡¨ç¾åŠ›ã‚’å¢—ã‚„ã—ãŸï¼Œã¨ã„ã†æ„å‘³ã¨è§£é‡ˆã—ãŸï¼Ž

BatchNormalizationã«ã¯ã€

ãƒŸãƒ‹ãƒãƒƒãƒå˜ä½ã§å¹³å‡ãƒ»åˆ†æ•£ã‚’æ£è¦åŒ–ã™ã‚‹ãŸã‚è¨ˆç®—é‡ãŒå°ã•ã„
ãƒŸãƒ‹ãƒãƒƒãƒå˜ä½ã§å¾®åˆ†å¯èƒ½

ã¨ã„ã†ç‰¹å¾´ãŒã‚ã‚‹ã€‚ ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ã©ã®ã‚ˆã†ã«ãªã‚‹ã‹ã¨ã„ã†ã¨

è¨“ç·´æ™‚ã¯ãƒŸãƒ‹ãƒãƒƒãƒã”ã¨ã«æ£è¦åŒ–ã—ã€
ä¸€æ–¹ã€ãƒ†ã‚¹ãƒˆï¼ˆinference)æ™‚ã¯ã€å…¨è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰å¦ç¿’ã—ãŸæƒ…å ±ã§æ£è¦åŒ–ã—ãŸã„ãŸã‚ã€ åˆ†æ•£ã¯è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®å¹³å‡ã€ä¸ååˆ†æ•£ã‚’ä½¿ã†ã€‚

ã©ã“ã«Batch Normå±¤ã‚’æŒ¿å…¥ã™ã‚‹ã‹ã¨ã„ã†ã¨ï¼Œ æ™®é€šã¯å…¨çµåˆå±¤ã‚„ç•³ã¿è¾¼ã¿å±¤ã®ç›´å¾Œã§ï¼Œæ´»æ€§åŒ–é–¢æ•°ã®ç›´å‰ï¼Ž

MNISTã®çµæžœ

è«–æ–‡ã®å›³ã‚’ãã®ã¾ã¾ã®ã›ã‚‹ã€‚

f:id:yusuke_ujitoko:20170616154645p:plain

åŽæŸãŒæ—©ãã€ã¾ãŸå…¥åŠ›åˆ†å¸ƒã¯å®‰å®šã—ã¦ã„ã‚‹ã®ãŒã‚ã‹ã‚‹ã€‚

èªã¿è§£ã‘ãªã‹ã£ãŸç‚¹

regularizationã®æ„å‘³

Batch Normã«ã‚ˆã‚‹æ£å‰‡åŒ–ã®åŠ¹æžœã‚’è¬³ã†æ–‡å¥ãŒã¨ã“ã‚ã©ã“ã‚ã«æ•£è¦‹ã•ã‚Œã‚‹ãŒï¼Œ ãã®æ£å‰‡åŒ–ã®æ„å‘³ãŒã‚ˆãã‚ã‹ã‚‰ãªã‹ã£ãŸï¼Ž

Furthermore, batch normalization regularizes the model and reduces the need for Dropout (Srivastava et al., 2014).

When training with Batch Normalization, a training example is seen in conjunction with other examples in the mini-batch, and the training network no longer producing deterministic values for a given training example.

ãƒãƒƒãƒã«å«ã¾ã‚Œã‚‹è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã«ä¾å˜ã—ã¦å„ãƒ‡ãƒ¼ã‚¿ã¯æ£è¦åŒ–ã•ã‚Œã‚‹ãŒï¼Œ ãã®ãƒãƒƒãƒã®é¸ã³æ–¹ã¯deterministicã§ãªã„ãŸã‚ï¼Œçµæžœçš„ã«è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®æ£è¦åŒ–ã®ã•ã‚Œæ–¹ã‚‚deterministicã§ã¯ãªãï¼Œ ã°ã‚‰ã¤ããŒã‚ã‚‹ã®ã§ï¼Œè¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®æ‹¡å¼µã«ã¤ãªãŒã£ã¦ï¼Œæ£å‰‡åŒ–ã®åŠ¹æžœãŒã‚ã‚‹ã¨ã„ã†æ„å‘³ï¼Ÿ

Reduce the photometric distortions.ã®æ„å‘³

Batch Normã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã«ãŠã‘ã‚‹ãƒ†ã‚¯ãƒ‹ãƒƒã‚¯ã®æœ€å¾Œã®ä¾‹ã¨ã—ã¦ï¼Œ Reduce the photometric distortionsãŒç´¹ä»‹ã•ã‚Œã¦ã„ã‚‹ãŒï¼Œ ã“ã‚Œã¯è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®æ‹¡å¼µã‚’ã‚ã¾ã‚Šã—ãªã„ï¼Œã¨ã„ã†æ„å‘³ï¼Ÿ

Because batchnormalized networks train faster and observe each training example fewer times, we let the trainer focus on more â€œrealâ€ images by distorting them less.

Understanding the backward pass through Batch Normalization Layer