ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆãŒã‚„ã‚‰ã‹ã—ãŒã¡ãªéŽã¡ãƒˆãƒƒãƒ—10ï¼ˆæµ·å¤–è¨˜äº‹ç´¹ä»‹ï¼‰

f:id:TJO:20190613213540p:plain
(Image by Pixabay)

"Top 10 Statistics Mistakes Made by Data Scientists"ã¨ã„ã†åˆºæ¿€çš„ãªã‚¿ã‚¤ãƒˆãƒ«ã®è¨˜äº‹ãŒå‡ºã¦ã„ã‚‹ã®ã‚’KDnuggetsçµŒç”±ã§çŸ¥ã‚Šã¾ã—ãŸã€‚ã€Œãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆãŒã‚„ã‚‰ã‹ã—ãŒã¡ãªçµ±è¨ˆå¦çš„ãªèª¤ã‚Šãƒˆãƒƒãƒ—10ã€ã¨ã„ã†ã“ã¨ã§ã€ã„ã‹ã«ã‚‚ãªã‚ã‚‹ã‚ã‚‹äº‹ä¾‹ãŒè‰²ã€…è¼‰ã£ã¦ã„ã¦é¢ç™½ã„ã§ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã€ä»Šå›žã¯ã“ã®è¨˜äº‹ã‚’å…¨è¨³ã«ãªã‚‰ãªã„ç¯„å›²ã§æŠ„è¨³ã—ã¦ã€ãã®å†…å®¹ã‚’åŸå‘³ã—ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ï¼ˆç›´è¨³ã—ã¦ã‚‚æ„å‘³ãŒå–ã‚Šã¥ã‚‰ã„ç®‡æ‰€ãŒå¤šã‹ã£ãŸãŸã‚ã‹ãªã‚Šã®éƒ¨åˆ†ã‚’æŠ„è¨³ãªãŒã‚‰æ„è¨³ã—ã¦ã„ã¾ã™ï¼šã“ã†ã„ã†è¨³ã®æ–¹ãŒè‰¯ã„ãªã©ã®ã‚³ãƒ¡ãƒ³ãƒˆã‚ã‚Œã°æ˜¯éžãŠå¯„ã›ãã ã•ã„ï¼‰ã€‚è¨€ã‚ãšã‚‚ãŒãªã§ã™ãŒã€ã“ã†ã„ã†æµ·å¤–è¨˜äº‹ç´¹ä»‹ã‚’ã‚„ã‚‹æ™‚ã¯ãƒã‚¿åˆ‡ã‚Œã¨ã„ã†ã“ã¨ã§ã™ã€æ‚ªã—ã‹ã‚‰ãšã€‚ã€‚ã€‚

å…ƒè¨˜äº‹ã®å†…å®¹

ã¨ã‚Šã‚ãˆãšã€ã¾ãšã¯å…ƒè¨˜äº‹ã®å†…å®¹ã‚’ã‚¶ãƒƒã¨è¦ç‚¹ã‚’ã¾ã¨ã‚ã¦ã„ãã¾ã™ã€‚å¯¾è¨³ã¨ã„ã†ã‚ˆã‚Šã¯ã€åŽŸæ–‡ãŒè¨€ã„ãŸã‹ã£ãŸã§ã‚ã‚ã†ã“ã¨ã‚’åƒ•ã®ç‹¬æ–ã§è£œå®Œã—ã¦ã„ã¾ã™ã®ã§ã€åŽŸæ–‡ãŒæ°—ã«ãªã‚‹æ–¹ã¯ä¸Šè¨˜ãƒªãƒ³ã‚¯å…ˆã‹ã‚‰ãŠèªã¿ã«ãªã‚‹ã“ã¨ã‚’ãŠè–¦ã‚ã—ã¾ã™ã€‚ãªãŠã€æ–‡ä¸ã®å›³ã¯å…¨ã¦GitHubã«ä¸ŠãŒã£ã¦ã„ã‚‹å…ƒè¨˜äº‹ã®ç”»åƒãƒªãƒ³ã‚¯ã‚’ç›´æŽ¥è²¼ã£ã¦è¼‰ã›ã¦ã„ã¾ã™ã€‚

1. Not fully understand objective functionï¼ˆç›®çš„é–¢æ•°ãŒä½•ã‹ã‚’ãã¡ã‚“ã¨ç†è§£ã—ã¦ã„ãªã„ï¼‰

ã“ã“ã§ã¯ã€ä½•ã‹ãƒ¢ãƒ‡ãƒ«ã‚’æ§‹ç¯‰ã™ã‚‹éš›ã«ã€Œä½•ã‚’ç›®æ¨™ï¼ˆï¼KPIï¼‰ã«ã™ã‚‹ã¹ãã‹ï¼Ÿã€ã¨ã„ã†ã®ã‚’åˆ†ã‹ã£ã¦ã„ãªã„ã¨æ„å‘³ã®ãªã„ä»•äº‹ã‚’ã‚„ã‚‹ã“ã¨ã«ãªã‚‹ã€ã¨è¦é˜ã‚’é³´ã‚‰ã—ã¦ã„ã¾ã™ã€‚ã‚ã‚‹ã‚ã‚‹ãªã®ãŒã€ãƒ¢ãƒ‡ãƒ«ã®ã€Œç²¾åº¦ã€ã¨ã„ã†æ„å‘³ã§ã¯å¤§ã—ã¦è‰¯ããªãã¦ã‚‚ã€ãƒ“ã‚¸ãƒã‚¹ä¸Šã®æŒ‡æ¨™ã®æ”¹å–„ã«ã¯å¤§ããè²¢çŒ®ã™ã‚‹ã‚ˆã†ãªãƒ¢ãƒ‡ãƒ«ã‚’ãƒ€ãƒ¡ã ã¨è¨€ã£ã¦æ¨ã¦ã¦ã—ã¾ã£ã¦ã„ã‚‹ã¨ã„ã†ã‚±ãƒ¼ã‚¹ã€‚ãã†ã„ã†æ‹™ã„å¸°çµã‚’é¿ã‘ã‚‹ãŸã‚ã«ã‚‚ã€Œç›®çš„ã€ã«ã“ã ã‚ã‚Œã€ãƒ“ã‚¸ãƒã‚¹ä¸Šã®æŒ‡æ¨™ã‚’æ”¹å–„ã—ãŸã„å ´åˆã¯ãã‚Œã‚’é©åˆ‡ãªæ•°å¦çš„ãƒ»çµ±è¨ˆå¦çš„ãªç›®çš„é–¢æ•°ã«å¤‰æ›ã—ã‚ã€ã¨ã„ã†ãŠè©±ã§ã™ã€‚

2. Not have a hypothesis why something should workï¼ˆä½•ã‹ãŒã†ã¾ãã„ãç†ç”±ã‚’èª¬æ˜Žã™ã‚‹ä»®èª¬ã‚’æŒã£ã¦ã„ãªã„ï¼‰

ä¸€è¨€ã§æ›¸ãã¨ã€Œãƒ‡ãƒ¼ã‚¿ã‚‚ã¾ã¨ã‚‚ã«è¦‹ãšã€ã©ã†ã„ã†ãƒ‡ãƒ¼ã‚¿ãªã‚‰ç›®ã®å‰ã«ã‚ã‚‹ãƒ‡ãƒ¼ã‚¿ã«ã‚ˆãå½“ã¦ã¯ã¾ã‚Šãã†ã‹ã€ã¨ã„ã†ã‚¤ãƒ¡ãƒ¼ã‚¸ã‚’ç‰¹ã«ä½•ã‚‚æŒãŸãªã„ã¾ã¾é—‡é›²ã«ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã—ã‚ˆã†ã¨ã™ã‚‹ã€ã¨ã„ã†ã“ã¨ã€‚ãã†ãªã‚‹ã¨ã€é©å½“ã«è¤‡æ•°ã®ãƒ¢ãƒ‡ãƒ«ã‚’ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦é©å½“ã«å½“ã¦ã¯ã‚ã¦ã¿ã¦ã€é©å½“ã«ä¸€ç•ªç²¾åº¦ãŒè‰¯ã‹ã£ãŸã‚‚ã®ã ã‘ã‚’é©å½“ã«é¸ã‚“ã§é©å½“ã«ä½¿ã†ã¨ã„ã†ã€é©å½“ãšãã‚ã«ãªã‚Šã‹ããªã„ã‚ã‘ã§ã™ã€‚

ã“ã®å›³ã®å·¦ã®ä¾‹ã§ã¯æ•£å¸ƒå›³ã‚’æã‘ã°ä¸€çž¬ã§ç·šå½¢ãƒ¢ãƒ‡ãƒ«ã§æ¸ˆã‚€ã“ã¨ãŒåˆ†ã‹ã‚‹ã—ã€å³ã®ä¾‹ã§ã¯ç·šå½¢ãƒ¢ãƒ‡ãƒ«ã§ã¯ãƒ€ãƒ¡ã ã¨ã„ã†ã“ã¨ãŒä¸€çž¬ã§åˆ†ã‹ã‚‹ã‚ã‘ã§ã™ãŒã€ãã‚Œã™ã‚‰ã—ãªã„ã®ã¯æ„šã‹ã—ã„ã€ã¨ã€‚

3. Not looking at the data before interpreting resultsï¼ˆçµæžœã‚’è§£é‡ˆã™ã‚‹å‰ã«ãã‚‚ãã‚‚ãƒ‡ãƒ¼ã‚¿ãã®ã‚‚ã®ã‚’è¦‹ã¦ã„ãªã„ï¼‰

ã“ã“ã§å¿µé ã«ç½®ã‹ã‚Œã¦ã„ã‚‹ã®ã¯å¤–ã‚Œå€¤(outlier)ã‚„ä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ã¸ã®å¯¾å¿œã€‚ã“ã‚Œã‚‚çµå±€ãƒ‡ãƒ¼ã‚¿ãã®ã‚‚ã®ã‚’è¦‹ã¦ã„ãªã‘ã‚Œã°åˆ†ã‹ã‚‰ãªã„ã‚ã‘ã§ã™ã€‚

åŒã˜å›³ã®ç¹°ã‚Šè¿”ã—ã§ã™ãŒã€å·¦ã®ä¾‹ã§ã¯å¤–ã‚Œå€¤ã‚’å…¥ã‚ŒãŸã ã‘ã§å›žå¸°ä¿‚æ•°ãŒ0.906ã‹ã‚‰-0.375ã«é£›ã‚“ã§ã—ã¾ã„ã¾ã™ã€‚ã¨ã«ã‹ãã¾ãšãƒ‡ãƒ¼ã‚¿ãã®ã‚‚ã®ã‚’ãã¡ã‚“ã¨è¦‹ã‚ï¼ã¨ã„ã†ã“ã¨ã§ã™ãã€‚

4. Not having a naive baseline modelï¼ˆé©åˆ‡ãªãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³ãƒ¢ãƒ‡ãƒ«ã‚’ç½®ã‹ãªã„ï¼‰

å®Ÿé¨“ç§‘å¦ã‚’ã‚„ã£ã¦ã„ãŸäººé–“ãªã‚‰ポジコンとかネガコンとかãƒ”ãƒ³ã¨æ¥ã‚‹ã‹ã¨æ€ã†ã‚“ã§ã™ãŒã€ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã‚’è¡Œã£ã¦äºˆæ¸¬ã‚’è¡Œã„ãŸã„ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã‚‚åŒæ§˜ã«é©åˆ‡ãªãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³ã‚’ç½®ãã¹ãã§ã‚ã‚‹ã€ã¨è¨€ã£ã¦ã„ã¾ã™ã€‚ã“ã“ã§ã¯æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã‚’ä¾‹ã«æŒ™ã’ã¦ã€ç·šå½¢å›žå¸°ã§CV MSEãŒäº‘ã€…ã€ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã§CV MSEãŒäº‘ã€…ã¨ã—ãŸããªã‚‹ã¨ã“ã‚ã§ã€ãã‚‚ãã‚‚1æœŸå‰ã®ãƒ‡ãƒ¼ã‚¿ã§è‡ªå·±å›žå¸°ã—ãŸã‚‰ã©ã†ãªã‚‹ã‹è€ƒãˆã¦ã¿ãŸã‹ï¼Ÿã¨ã„ã†ãƒ„ãƒƒã‚³ãƒŸã‚’å…¥ã‚Œã¦ã„ã¾ã™ã€‚

5. Incorrect out-sample testingï¼ˆæ£ã—ããªã„éžã‚µãƒ³ãƒ—ãƒ«ãƒ†ã‚¹ãƒˆï¼ä¸é©åˆ‡ãªCVï¼‰

R&Dã¨ã—ã¦ä½œã‚‰ã‚ŒãŸãƒ¢ãƒ‡ãƒ«ã¯ç´ æ™´ã‚‰ã—ã‹ã£ãŸãŒã€ã„ã–æœ¬ç•ªç’°å¢ƒã«çªã£è¾¼ã‚“ã§ã¿ãŸã‚‰å…¨ãä½¿ã„ç‰©ã«ãªã‚‰ãªã‹ã£ãŸã€‚ã€‚ã€‚ã¿ãŸã„ãªè©±ã¯æœ€å…ˆç«¯ã®ã€‡ã€‡NetãŒçŒ›å¨ã‚’æŒ¯ã‚‹ã†ç¾ä»£ã§ã™ã‚‰è‰¯ãã‚ã‚‹ãŠè©±ã€‚å¦ç¿’ãƒ‡ãƒ¼ã‚¿(train/dev)å†…ã§CVã™ã‚‹ã ã‘ã§æ¸ˆã¾ã›ã‚‹ã®ã§ã¯ãªãã€ãã¡ã‚“ã¨å¦ç¿’ãƒ‡ãƒ¼ã‚¿(train/dev)ã®å¤–å´ã®ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿(test or private)ã‚’ä½¿ã£ã¦æ€§èƒ½æ¤œè¨¼ã—ã‚ã€CVã§ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒè‰¯ãã¦ã‚‚ã‚‚ã—ã‹ã—ãŸã‚‰å˜ãªã‚‹overfittingã‹ã‚‚ã—ã‚Œãªã„ãžã€ã¨ã„ã†ã“ã¨ã§ã™ã€‚ã“ã“ã§ä¸ŠãŒã£ã¦ã„ã‚‹ä¾‹ã¯ã€ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®CV MSEãŒ0.04ã€ç·šå½¢å›žå¸°ã®CV MSEãŒ0.183ã ã£ãŸã¨ã—ã¦ã€ã“ã‚Œã‚’æ–°è¦ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã«å½“ã¦ã¯ã‚ã¦ã¿ãŸã‚‰RFã®MSEãŒ0.261ã€ç·šå½¢å›žå¸°ã®MSEãŒ0.187ã ã£ãŸã¨ã—ãŸã‚‰ã€ã©ã¡ã‚‰ã‚’ä½¿ã†ã‹ï¼Ÿã¨èžã„ã¦ã„ã¾ã™ã€‚

6. Incorrect out-sample testing: applying preprocessing to full datasetï¼ˆä¸é©åˆ‡ãªCVï¼šå‰å‡¦ç†ã‚’splitã™ã‚‹å‰ã«ä¸€æ‹¬ã—ã¦ã‚„ã£ã¦ã—ã¾ã†ï¼‰

ã‚·ãƒ³ãƒ—ãƒ«ã«è¨€ãˆã°ã€ãã¡ã‚“ã¨train/devã‹ã‚‰testã¸ã®leakageãŒèµ·ããªã„ã‚ˆã†ã«æ³¨æ„ã—ã‚ã¨ã„ã†ãŠè©±ã§ã™ã€‚ãã®ä¸€ä¾‹ã¨ã—ã¦ã€train/dev vs. testã¨ã§åˆ†ã‘ã‚‹å‰ã«ä¸€æ‹¬ã—ã¦å‰å‡¦ç†ã‚’è¡Œã£ã¦ã—ã¾ã†ã¨ã„ã†ã‚±ãƒ¼ã‚¹ã‚’æŒ™ã’ã¦ã„ã¾ã™ã€‚æœ¬æ¥ãªã‚‰train/dev vs. testã¨ã§åˆ†ã‘ãŸã€Œå¾Œã«ã€å‰å‡¦ç†ã—ãªã‘ã‚Œã°ã„ã‘ãªã„ã®ã«ã€ã€Œå‰ã«ã€è¬ã£ã¦å‰å‡¦ç†ã—ã¦ã—ã¾ã†ã“ã¨ã§ä½•ã‹ã—ã‚‰ã®leakageãŒèµ·ãã‚‹ã‹ã‚‚ã—ã‚Œãªã„ã¨ã„ã†ã“ã¨ã§ã™ã€‚

7. Incorrect out-sample testing: cross-sectional data & panel dataï¼ˆä¸é©åˆ‡ãªCVï¼šã‚¯ãƒã‚¹ã‚»ã‚¯ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ã¨ãƒ‘ãƒãƒ«ãƒ»æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã¨ã§åŒã˜ã“ã¨ã‚’ã‚„ã£ã¦ã—ã¾ã†ï¼‰

ã“ã‚Œã¯ã¡ã‚‡ã£ã¨å‰ã«ã‚ã‚‹ã¨ã“ã‚ã§å¤§ããªè°è«–ã‚’å‘¼ã‚“ã è©±ã§ã€æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹äº¤å·®æ¤œè¨¼ã‚’ã‚¯ãƒãƒ«ã‚»ã‚¯ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ã¨åŒæ§˜ã«random splitã§ã‚„ã£ã¦ã—ã¾ã†ã‚±ãƒ¼ã‚¹ãŒã¾ã¾ã‚ã‚‹ã€ã¨ã„ã†ãŠè©±ã§ã™ã€‚å½“ç„¶ãªãŒã‚‰ã€æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã¯å˜ä½æ ¹éŽç¨‹ãƒ»ãƒˆãƒ¬ãƒ³ãƒ‰ãƒ»å£ç¯€èª¿æ•´ãªã©éžç·šå½¢æˆåˆ†ã‚’å«ã‚€ã“ã¨ãŒå¤šãã€ãƒ©ãƒ³ãƒ€ãƒ ã«åˆ‡ã‚Šå‡ºã—ã¦ã‚‚å‰å¾Œã®ã‚µãƒ³ãƒ—ãƒ«åŒå£«å«ã‚ã¦è‡ªå·±ç›¸é–¢ï¼ˆç³»åˆ—ç›¸é–¢ï¼‰ã®å½±éŸ¿ã‚’å¼·ãå—ã‘ã‚„ã™ã„ã®ã§ã€random splitã§CVã™ã‚‹ã®ã¯ã”æ³•åº¦ã§ã™ã€‚

ã“ã®ãƒ–ãƒã‚°ã§ã‚‚ä»¥å‰å–ã‚Šä¸Šã’ã¾ã—ãŸãŒã€æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹CVã¯åŽŸå‰‡ã¨ã—ã¦ã€ŒéŽåŽ»ã‹ã‚‰æœªæ¥æ–¹å‘ã«å‘ã‹ã£ã¦ã®ã¿ã€è¡Œã„ã¾ã™ã€‚

8. Not considering which data is available at point of decisionï¼ˆã„ã‚ˆã„ã‚ˆãƒ¢ãƒ‡ãƒ«ã‚’å°Žå…¥ã™ã‚‹éš›ã«ã©ã®ãƒ‡ãƒ¼ã‚¿ãŒä½¿ãˆã‚‹ã‹ã‚’è€ƒæ…®ã—ã¦ã„ãªã„ï¼‰

ã“ã“ã§çªç„¶ã‚°ãƒƒã¨å®Ÿå‹™çš„ãªè©±ãŒå‡ºã¦ãã¾ã™ã€‚ãƒ‡ãƒ¼ã‚¿åˆ†æžæ¥ç•Œã‚ã‚‹ã‚ã‚‹ãƒã‚¿ã¨ã—ã¦ã€Œæ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã£ãŸæ™‚ã¨åŒã˜ã‚ˆã†ãªå‚¾å‘ã®ãƒ‡ãƒ¼ã‚¿ãŒè‚å¿ƒã®æ©Ÿæ¢°å¦ç¿’ã‚·ã‚¹ãƒ†ãƒ å°Žå…¥æ™‚ã«å¾—ã‚‰ã‚Œãªã„ã€ã¨ã„ã†ã®ãŒã‚ã‚Šã¾ã™ãŒã€ã¾ã•ã«ãã®è©±ã§ã™ã€‚å¯¾å‡¦æ³•ã¨ã—ã¦ã€Œã¨ã«ã‹ãæ–°è¦ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã‚’å¾—ã¦ã¯æ¤œè¨¼ã‚’ç¹°ã‚Šè¿”ã™ã€ã¨ã„ã†ã“ã¨ãŒæå”±ã•ã‚Œã¦ã„ã¾ã™ã€‚

9. Subtle Overtrainingï¼ˆå¾®å¦™ãªéŽå¦ç¿’ï¼‰

ã“ã‚Œã¯æ£ç›´è¨€ã£ã¦ä½•ã‚’è¨€ã„ãŸã„ã®ã‹ã¡ã‚‡ã£ã¨åˆ†ã‹ã‚Šã¥ã‚‰ã‹ã£ãŸã§ã™ã€‚ãƒ‡ãƒ¼ã‚¿ãŒå¢—ãˆã‚Œã°éŽå¦ç¿’ãŒé€²ã‚€ã¨ã„ã†ã®ã¯ã¾ããã®é€šã‚Šã ã¨æ€ã†ã‚“ã§ã™ãŒã€ã€Œãƒ‡ãƒ¼ã‚¿ãŒå¢—ãˆã‚‹ã«ã¤ã‚Œã¦éŽå¦ç¿’ãŒé€²ã‚“ã§ã—ã¾ã£ãŸæ™‚ã«ã©ã†ã™ã‚Œã°è‰¯ã„ã‹ã€ã¯çµæ§‹é›£ã—ã„ãƒ†ãƒ¼ãƒžã ã¨æ€ã†ã‚“ã§ã™ã‚ˆãã€‚ã€‚ã€‚å¤šåˆ†ãã®ã€Œç¨‹åº¦ã€ã‚’ã©ã†æ¸¬ã‚‹ã‹ï¼ŸãŒé‡è¦ã ã¨ã„ã†ã“ã¨ãªã®ã‹ãªã¨ã€‚ãƒ‡ãƒ¼ã‚¿ãŒå¢—ãˆãŸçµæžœCV MSEãŒ2å€ã«ãªã£ã¦ã—ã¾ã£ãŸã‚‰ã©ã†ã—ãŸã‚‰è‰¯ã„ã‹ï¼Ÿã„ã‚„ãã‚Œã¯ãã®MSEã‚’è¨±å®¹ã§ãã‚‹ã‹ã©ã†ã‹ã®æ–¹ãŒé‡è¦ã ã¨æ€ã†ã‚“ã§ã™ãŒã€‚

è¿½è¨˜ï¼ˆ2019å¹´6æœˆ18æ—¥ï¼‰

ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆãŒã‚„ã‚‰ã‹ã—ãŒã¡ãªéŽã¡ãƒˆãƒƒãƒ—10ï¼ˆæµ·å¤–è¨˜äº‹ç´¹ä»‹ï¼‰ - å…æœ¬æœ¨ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã®ãƒ–ãƒã‚°
9 ã¯ã€Œä¸€ã¤ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã ã‘ã‚’ä¸€ç”Ÿæ‡¸å‘½ã„ã˜ã‚Šå›žã™ãªã€ã£ã¦è©±ã§ã¯ãƒ»ãƒ»ãƒ»ï¼Ÿ
2019/06/17 20:59

ç¢ºã‹ã«ãã†èªã¿å–ã‚Œã‚‹ãªã¨æ€ã„ã¾ã—ãŸã€‚ã”æŒ‡æ‘˜æœ‰é›£ã†ã”ã–ã„ã¾ã™m(_ _)m

10. "need more data" fallacyï¼ˆã€Œã‚‚ã£ã¨ãƒ‡ãƒ¼ã‚¿ãŒå¿…è¦ã€ã¨ã„ã†èª¤ã£ãŸæ€ã„è¾¼ã¿ï¼‰

æ¨™æœ¬æŠ½å‡ºã«ã“ã ã‚ã‚‹å¤å…¸çš„ãªçµ±è¨ˆå¦ã«è©³ã—ã„äººã‹ã‚‰è¦‹ã‚Œã°å®Ÿã¯å½“ãŸã‚Šå‰ãªè©±ã§ã¯ã‚ã‚Šã¾ã™ãŒã€ã€Œç›´æ„Ÿã«åã—ã¦ã€ãƒ‡ãƒ¼ã‚¿åˆ†æžã¨ã„ã†ã®ã¯å¤šéŽãŽã‚‹ã‚ˆã‚Šã¯å°‘æ•°ã§è‰¯ã„ã®ã§ãã¡ã‚“ã¨ï¼ˆå®Ÿéš›ã«ã¯è¦‹ãˆãªã„ï¼‰æ¯é›†å›£ã‚’é©åˆ‡ã«ä»£è¡¨ã™ã‚‹ã‚µãƒ³ãƒ—ãƒ«ãŒã‚ã‚Œã°è‰¯ã„ã¨ã„ã†ã‚‚ã®ã ã£ãŸã‚Šã—ã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ã€ãƒ‡ãƒ¼ã‚¿ãŒå°‘ãªã‘ã‚Œã°ãã‚Œã ã‘äººã®ç›®ã§è¦‹ã¦æŠŠæ¡ã™ã‚‹ã“ã¨ã‚‚å®¹æ˜“ã§ã‚ã‚Šã€ã€Œã‚»ãƒ³ã‚¹ã€ã‚‚ç™ºæ®ã—ã‚„ã™ããªã‚Šã¾ã™ã€‚ãŒã€ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã¨ã„ã†ã®ã¯å¾€ã€…ã«ã—ã¦ã€Œã‚‚ã£ã¨ãƒ‡ãƒ¼ã‚¿ãŒå¿…è¦ã€ã¨è¨€ã£ã¦ã—ã¾ã„ãŒã¡ã§ã‚ã‚‹ã€ã¨ã€‚

ãªã‚Œã°ã“ãã€ã€Œå¤šã€…ã¾ã™ã¾ã™å¼ãšã€ã¨ã„ã†å§¿å‹¢ã¯æŽ’ã•ãªã‘ã‚Œã°ãªã‚‰ãªã„ã€‚å°‘æ•°ã®é©åˆ‡ã«æ¯é›†å›£ã‚’ä»£è¡¨ã™ã‚‹ã‚µãƒ³ãƒ—ãƒ«ãŒå¾—ã‚‰ã‚Œã‚‹ã‚ˆã†ãªã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã‚’è¡Œã†é™ã‚Šã¯ã€å¾—ã‚‰ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã‚’åˆ†æžã—ãŸçµæžœã‹ã‚‰å°Žã„ãŸã‚¢ã‚¯ã‚·ãƒ§ãƒ³ãŒã†ã¾ãã„ã‹ãªã‹ã£ãŸæ™‚ã«è€ƒãˆã‚‹ã¹ãã“ã¨ã¯ã€Œã‚‚ã£ã¨ãƒ‡ãƒ¼ã‚¿ã‚’å¢—ã‚„ã™ã€ã§ã¯ãªãã€ã€Œã‚‚ã£ã¨ã‚¢ãƒ—ãƒãƒ¼ãƒã‚’é©åˆ‡ãªã‚‚ã®ã«å¤‰ãˆã‚‹ã€ã§ã‚ã‚‹ã¹ãã ã€ã¨è¨€ã£ã¦ã„ã¾ã™ã€‚

æ„Ÿæƒ³ãªã©

ä¸€è²«ã—ã¦éŽå¦ç¿’ã®ã“ã¨ã‚’"overfitting"ã§ã¯ãªã"overtraining"ã¨æ›¸ã„ãŸã‚Šã€train / dev / test (private)ã§ã¯ãªãin-sample vs. out-sampleã¨æ›¸ããªã©ã€ã¡ã‚‡ã£ã¨ç”¨èªžã®ä½¿ã„æ–¹ãŒé•ã†æ„Ÿã˜ã®ã™ã‚‹ãƒ†ã‚ã‚¹ãƒˆã ã£ãŸã®ã§è‰²ã€…ã¨èªã‚“ã§ã„ã¦æˆ¸æƒ‘ã†ã“ã¨ã®ã‚ã‚‹è¨˜äº‹ã§ã—ãŸã€‚ã€‚ã€‚

å€‹äººçš„ãªæ„è¦‹ã‚’æ›¸ãã¨ã€ã“ã®è¨˜äº‹ãŒä¸»ã«ãƒ“ã‚¸ãƒã‚¹å®Ÿå‹™ã«ãŠã‘ã‚‹æ©Ÿæ¢°å¦ç¿’ï¼ˆçµ±è¨ˆï¼‰ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã®ç®¡ç†é‹ç”¨ã®ä»•æ–¹ã«ã¤ã„ã¦ä½•ã‹ç‰©ç”³ãã†ã¨ã—ã¦ã„ã‚‹ã®ã ã¨ã™ã‚Œã°ã€ã‚„ã¯ã‚Šãƒ“ã‚¸ãƒã‚¹å®Ÿå‹™ã«ãŠã„ã¦ä½•ãŒé‡è¦ã‹ã¨ã„ã†ã“ã¨ã‚’ç¬¬ä¸€ç¾©ã«ç½®ãã¹ãã ã¨æ€ã†ã®ã§ã™ã€‚ä¾‹ãˆã°ã€Œèª¬æ˜Žã€ã«é‡ãã‚’ç½®ããŸã„ã®ã‹ã€ãã‚Œã¨ã‚‚ã€Œäºˆæ¸¬ã€ã«é‡ãã‚’ç½®ããŸã„ã®ã‹ã€ãªã©ãªã©ã€‚

ã‚ã¨ã¯ã€ä¸€èˆ¬çš„ãªãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã«éš›ã—ã¦ã®æ³¨æ„äº‹é …ã‚’å®ˆã‚‹ã“ã¨ãŒè‚è¦ã‹ãªã¨ã€‚ç‰¹ã«æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã®ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã¯ãã“ã‚‰ä¸ã«åœ°é›·ãŒåŸ‹ã¾ã£ã¦ã„ã‚‹åœ°é›·åŽŸã¿ãŸã„ãªã‚‚ã®ãªã®ã§ã€å‰²ã¨ã‚·ãƒ³ãƒ—ãƒ«ãªç´„æŸäº‹ã—ã‹ãªã„ã¨ã¯ã„ãˆã€ã‚ã‚‹ç¨‹åº¦æ„è˜çš„ã«è½ã¨ã—ç©´ã«ãƒãƒžã‚‰ãªã„ã‚ˆã†æ°—ã‚’ä»˜ã‘ã‚‹ã¹ãã‹ãªã¨æ€ã„ã¾ã—ãŸã€‚

æ¸‹è°·é§…å‰ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã®ãƒ–ãƒã‚°

å…ƒç¥–ã€Œå…æœ¬æœ¨ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã€ã§ã™ / é“çŽ„å‚â†’éŠ€åº§â†’æ±äº¬â†’å…æœ¬æœ¨â†’æ¸‹è°·é§…å‰

å…ƒè¨˜äº‹ã®å†…å®¹

1. Not fully understand objective functionï¼ˆç›®çš„é–¢æ•°ãŒä½•ã‹ã‚’ãã¡ã‚“ã¨ç†è§£ã—ã¦ã„ãªã„ï¼‰

2. Not have a hypothesis why something should workï¼ˆä½•ã‹ãŒã†ã¾ãã„ãç†ç”±ã‚’èª¬æ˜Žã™ã‚‹ä»®èª¬ã‚’æŒã£ã¦ã„ãªã„ï¼‰

3. Not looking at the data before interpreting resultsï¼ˆçµæžœã‚’è§£é‡ˆã™ã‚‹å‰ã«ãã‚‚ãã‚‚ãƒ‡ãƒ¼ã‚¿ãã®ã‚‚ã®ã‚’è¦‹ã¦ã„ãªã„ï¼‰

4. Not having a naive baseline modelï¼ˆé©åˆ‡ãªãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³ãƒ¢ãƒ‡ãƒ«ã‚’ç½®ã‹ãªã„ï¼‰

5. Incorrect out-sample testingï¼ˆæ£ã—ããªã„éžã‚µãƒ³ãƒ—ãƒ«ãƒ†ã‚¹ãƒˆï¼ä¸é©åˆ‡ãªCVï¼‰

6. Incorrect out-sample testing: applying preprocessing to full datasetï¼ˆä¸é©åˆ‡ãªCVï¼šå‰å‡¦ç†ã‚’splitã™ã‚‹å‰ã«ä¸€æ‹¬ã—ã¦ã‚„ã£ã¦ã—ã¾ã†ï¼‰

8. Not considering which data is available at point of decisionï¼ˆã„ã‚ˆã„ã‚ˆãƒ¢ãƒ‡ãƒ«ã‚’å°Žå…¥ã™ã‚‹éš›ã«ã©ã®ãƒ‡ãƒ¼ã‚¿ãŒä½¿ãˆã‚‹ã‹ã‚’è€ƒæ…®ã—ã¦ã„ãªã„ï¼‰

9. Subtle Overtrainingï¼ˆå¾®å¦™ãªéŽå¦ç¿’ï¼‰

10. "need more data" fallacyï¼ˆã€Œã‚‚ã£ã¨ãƒ‡ãƒ¼ã‚¿ãŒå¿…è¦ã€ã¨ã„ã†èª¤ã£ãŸæ€ã„è¾¼ã¿ï¼‰

æ„Ÿæƒ³ãªã©

å…ƒè¨˜äº‹ã®å†…å®¹

1. Not fully understand objective functionï¼ˆç›®çš„é–¢æ•°ãŒä½•ã‹ã‚’ãã¡ã‚“ã¨ç†è§£ã—ã¦ã„ãªã„ï¼‰

2. Not have a hypothesis why something should workï¼ˆä½•ã‹ãŒã†ã¾ãã„ãç†ç”±ã‚’èª¬æ˜Žã™ã‚‹ä»®èª¬ã‚’æŒã£ã¦ã„ãªã„ï¼‰

3. Not looking at the data before interpreting resultsï¼ˆçµæžœã‚’è§£é‡ˆã™ã‚‹å‰ã«ãã‚‚ãã‚‚ãƒ‡ãƒ¼ã‚¿ãã®ã‚‚ã®ã‚’è¦‹ã¦ã„ãªã„ï¼‰

4. Not having a naive baseline modelï¼ˆé©åˆ‡ãªãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³ãƒ¢ãƒ‡ãƒ«ã‚’ç½®ã‹ãªã„ï¼‰

5. Incorrect out-sample testingï¼ˆæ­£ã—ããªã„éžã‚µãƒ³ãƒ—ãƒ«ãƒ†ã‚¹ãƒˆï¼ä¸é©åˆ‡ãªCVï¼‰

6. Incorrect out-sample testing: applying preprocessing to full datasetï¼ˆä¸é©åˆ‡ãªCVï¼šå‰å‡¦ç†ã‚’splitã™ã‚‹å‰ã«ä¸€æ‹¬ã—ã¦ã‚„ã£ã¦ã—ã¾ã†ï¼‰

8. Not considering which data is available at point of decisionï¼ˆã„ã‚ˆã„ã‚ˆãƒ¢ãƒ‡ãƒ«ã‚’å°Žå…¥ã™ã‚‹éš›ã«ã©ã®ãƒ‡ãƒ¼ã‚¿ãŒä½¿ãˆã‚‹ã‹ã‚’è€ƒæ…®ã—ã¦ã„ãªã„ï¼‰

9. Subtle Overtrainingï¼ˆå¾®å¦™ãªéŽå­¦ç¿’ï¼‰

10. "need more data" fallacyï¼ˆã€Œã‚‚ã£ã¨ãƒ‡ãƒ¼ã‚¿ãŒå¿…è¦ã€ã¨ã„ã†èª¤ã£ãŸæ€ã„è¾¼ã¿ï¼‰

æ„Ÿæƒ³ãªã©

å…ƒè¨˜äº‹ã®å†…å®¹

1. Not fully understand objective functionï¼ˆç›®çš„é–¢æ•°ãŒä½•ã‹ã‚’ãã¡ã‚“ã¨ç†è§£ã—ã¦ã„ãªã„ï¼‰

2. Not have a hypothesis why something should workï¼ˆä½•ã‹ãŒã†ã¾ãã„ãç†ç”±ã‚’èª¬æ˜Žã™ã‚‹ä»®èª¬ã‚’æŒã£ã¦ã„ãªã„ï¼‰

3. Not looking at the data before interpreting resultsï¼ˆçµæžœã‚’è§£é‡ˆã™ã‚‹å‰ã«ãã‚‚ãã‚‚ãƒ‡ãƒ¼ã‚¿ãã®ã‚‚ã®ã‚’è¦‹ã¦ã„ãªã„ï¼‰

4. Not having a naive baseline modelï¼ˆé©åˆ‡ãªãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³ãƒ¢ãƒ‡ãƒ«ã‚’ç½®ã‹ãªã„ï¼‰

5. Incorrect out-sample testingï¼ˆæ£ã—ããªã„éžã‚µãƒ³ãƒ—ãƒ«ãƒ†ã‚¹ãƒˆï¼ä¸é©åˆ‡ãªCVï¼‰

6. Incorrect out-sample testing: applying preprocessing to full datasetï¼ˆä¸é©åˆ‡ãªCVï¼šå‰å‡¦ç†ã‚’splitã™ã‚‹å‰ã«ä¸€æ‹¬ã—ã¦ã‚„ã£ã¦ã—ã¾ã†ï¼‰

8. Not considering which data is available at point of decisionï¼ˆã„ã‚ˆã„ã‚ˆãƒ¢ãƒ‡ãƒ«ã‚’å°Žå…¥ã™ã‚‹éš›ã«ã©ã®ãƒ‡ãƒ¼ã‚¿ãŒä½¿ãˆã‚‹ã‹ã‚’è€ƒæ…®ã—ã¦ã„ãªã„ï¼‰

9. Subtle Overtrainingï¼ˆå¾®å¦™ãªéŽå¦ç¿’ï¼‰

10. "need more data" fallacyï¼ˆã€Œã‚‚ã£ã¨ãƒ‡ãƒ¼ã‚¿ãŒå¿…è¦ã€ã¨ã„ã†èª¤ã£ãŸæ€ã„è¾¼ã¿ï¼‰

æ„Ÿæƒ³ãªã©