ãƒ“ã‚¸ãƒã‚¹å®Ÿå‹™ã®ç¾å ´ã§æœ‰ç”¨ãªçµ±è¨ˆå¦ãƒ»æ©Ÿæ¢°å¦ç¿’ãƒ»ãƒ‡ãƒ¼ã‚¿ãƒžã‚¤ãƒ‹ãƒ³ã‚°åŠã³ãã®ä»–ã®ãƒ‡ãƒ¼ã‚¿åˆ†æžæ‰‹æ³•10+2é¸ï¼ˆ2016å¹´ç‰ˆï¼‰

ãã†è¨€ãˆã°3å¹´å‰ã«ã“ã‚“ãªã¾ã¨ã‚çš„ã‚¨ãƒ³ãƒˆãƒªã‚’æ›¸ã„ãŸã®ã§ã—ãŸã€‚ã“ã®å†…å®¹ã¯ãã®ã¾ã¾ã‹ãªã‚Šã®éƒ¨åˆ†ãŒ2å¹´å‰ã«åˆŠè¡Œã—ãŸæ‹™è‘—ã®åŽŸæ¡ˆã«ã‚‚ãªã£ãŸã¨ã„ã†ã“ã¨ã§ã€è‰²ã€…æ€ã„å‡ºæ·±ã„ã‚¨ãƒ³ãƒˆãƒªã§ã™ã€‚

ãªã®ã§ã™ãŒã€‚ãƒ»ãƒ»ãƒ»ã“ã®3å¹´ã®é–“ã«çµ±è¨ˆå¦ãƒ»æ©Ÿæ¢°å¦ç¿’ãƒ»ãƒ‡ãƒ¼ã‚¿ãƒžã‚¤ãƒ‹ãƒ³ã‚°ã®è«¸æ‰‹æ³•åŠã³ãã‚Œã‚’å–ã‚Šå·»ããƒ“ã‚¸ãƒã‚¹ãƒ‹ãƒ¼ã‚ºã«ã¯æ§˜ã€…ãªé€²æ©ãŒã‚ã‚Šã€ãã‚ãã‚ã“ã®å†…å®¹ã«ã‚‚é™³è…åŒ–ãŒç›®ç«‹ã¤ã‚ˆã†ã«ãªã£ã¦ãã¾ã—ãŸã€‚ã¨ã„ã†ã“ã¨ã§ã€3å¹´é–“ã®é€²æ©ã‚’åæ˜ ã—ã¦ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã—ãŸè¨˜äº‹ã‚’æ›¸ã„ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚å‰å›žã¯ã€Œ10é¸ã€ã§ã—ãŸãŒã€ä»Šå›žã¯ã€Œ10+2é¸ã€ã«æ”¹ã‚ã¾ã—ãŸã€‚ãã®ãƒ©ã‚¤ãƒ³ãƒŠãƒƒãƒ—ã¯ä»¥ä¸‹ã®é€šã‚Šã€‚

å‰å›žã‚ˆã‚Šã ã„ã¶çµ„ã¿æ›¿ã‚ã‚Šã¾ã—ãŸãŒã€ãã‚Œã ã‘å®Ÿå‹™ã®ç¾å ´ã§ç”¨ã„ã‚‰ã‚Œã‚‹ãƒ‡ãƒ¼ã‚¿åˆ†æžæ‰‹æ³•ã®é ˜åŸŸãŒåºƒãŒã£ãŸã¨ã„ã†ã“ã¨ã‹ãªã¨å‹æ‰‹ã«è€ƒãˆã¦ãŠã‚Šã¾ã™ï¼ˆç¬‘ï¼‰ã€‚ã¾ãŸã€åˆ©ç”¨ã™ã‚‹ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãƒ»ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®éƒ½åˆä¸Šä»Šå›žã¯Rã ã‘ã§ã¯ãªãPythonã®ã‚‚ã®ã‚‚å«ã‚ã¦ã„ã¾ã™*1ã€‚ãŸã ã—åŸºæœ¬çš„ã«ã¯Rä¸Šã§ã®å®Ÿè¡Œä¾‹ã‚’ç´¹ä»‹ã—ã¦ã„ãæ„Ÿã˜ã§ã™ã€‚

ä¸€æ–¹ã€ã€Œè£œã€ã‚’ã¤ã‘ãŸ2æ‰‹æ³•ã«ã¤ã„ã¦ã¯ãƒ‡ãƒ¼ã‚¿åˆ†æžæ¥ç•Œã§ã¯åºƒãä½¿ã‚ã‚Œã¦ã„ã‚‹ã‚‚ã®ã®åƒ•ãŒæ™®æ®µå®Ÿè·µã—ã¦ã„ãªã„æ‰‹æ³•ã§ã‚ã‚‹ãŸã‚ã€ãã“ã ã‘ã¯åŸºæœ¬çš„ã«ã¯ä»–ã®è³‡æ–™ã‚’å‚ç…§ã—ãªãŒã‚‰ã®ç´¹ä»‹ã«ç•™ã‚ã¦ã„ã¾ã™ã€‚ã¨ã„ã†ã“ã¨ã§ã€ä»¥ä¸‹ã–ã£ãã‚Šè¦‹ã¦ã„ãã¾ã—ã‚‡ã†ã€‚

Disclaimer

ä»Šå›žã‚‚åŸºæœ¬çš„ã«ã¯ã€Œã²ã¨ã¤ã®è¨˜äº‹ã§å¤§é›‘æŠŠã«çœºã‚ãŸã„ã€äººå‘ã‘ã®è¨˜äº‹ãªã®ã§ã€ã¡ã‚‡ã“ã¡ã‚‡ã“ç´°ã‹ã„ã¨ã“ã‚ã§åŽ³å¯†æ€§ã‚’æ¬ ã„ã¦ã„ãŸã‚Šã€èª¬æ˜Žä¸è¶³ã ã£ãŸã‚Šã€ã¯ãŸã¾ãŸä»–ã«å¿…è¦ãªè³‡æ–™ã®æç¤ºãŒæ¬ ã‘ã¦ã„ã‚‹ã¨ã“ã‚ã‚‚ã‚ã‚‹ã‹ã¨æ€ã„ã¾ã™ã®ã§ã€ãã®è¾ºã¯ä½•å’ã”å®¹èµ¦ã‚’ã€‚ã¾ãŸã‚¹ã‚¯ãƒ©ãƒƒãƒã‹ã‚‰ã®å®Ÿè£…ã«å¿…è¦ãªçŸ¥è˜ã‚’æä¾›ã™ã‚‹ã‚‚ã®ã§ã‚‚ã‚ã‚Šã¾ã›ã‚“ã®ã§ã€ã©ã†ã‹æ‚ªã—ã‹ã‚‰ãš

ä»Šå›žã®è¨˜äº‹ã§ã¯ãã‚Œãžã‚Œã®ãƒ‡ãƒ¼ã‚¿åˆ†æžæ‰‹æ³•ã‚’ç´¹ä»‹ã™ã‚‹ã“ã¨ã«ä¸»çœ¼ã‚’ç½®ã„ã¦ã„ã‚‹ã®ã§ã€å€‹ã€…ã®ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãƒ»ãƒ©ã‚¤ãƒ–ãƒ©ãƒªé¡žåŠã³ãã‚Œã‚‰ã®ãƒ“ãƒ«ãƒ‰ã«å¿…è¦ãªã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ç’°å¢ƒãªã©ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«æ–¹æ³•ãªã©ã®è©³ç´°ã¯ã»ã¼å‰²æ„›ã—ã¦ãŠã‚Šã¾ã™ã€‚ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã«éš›ã—ã¦ã¯é©å®œãƒªãƒ³ã‚¯å…ˆã®è¨˜äº‹ã‚’å‚ç…§ã™ã‚‹ãªã‚Šã€ã‚°ã‚°ã‚‹ãªã‚Šã—ã¦ãã ã•ã„

ãŸã ã—ã€æ˜Žã‚‰ã‹ã«ç†è«–çš„ã«èª¤ã£ã¦ã„ã‚‹èª¬æ˜Žãªã©ãŒã‚ã‚‹å ´åˆã¯ç›´ã¡ã«ä¿®æ£ã„ãŸã—ã¾ã™ã®ã§ã€ã‚³ãƒ¡ãƒ³ãƒˆæ¬„ãªã‚ŠSNSä¸Šã§ã®ã‚³ãƒ¡ãƒ³ãƒˆãªã‚Šã§TJOã¾ã§æ˜¯éžãŠçŸ¥ã‚‰ã›ãã ã•ã„

çµ±è¨ˆå¦çš„æ¤œå®šï¼ˆtæ¤œå®šãƒ»ã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ANOVAãªã©ï¼‰

æ„å¤–ã¨å¤šãã®ç¾å ´ã§æ ¹å¼·ã„äººæ°—ã‚’èª‡ã‚‹ã®ãŒã€æ¥µã‚ã¦å¤å…¸çš„ã§é »åº¦ä¸»ç¾©çš„ãªã€Œçµ±è¨ˆå¦çš„æ¤œå®šã€ã€‚è¦ã™ã‚‹ã«ã€ŒA/Bãƒ†ã‚¹ãƒˆã€ã‚’åˆã‚ã¨ã—ã¦ã€Œä½•ã‹ã¨ä½•ã‹ã‚’æ¯”è¼ƒã—ãŸã„å ´åˆã€ã«ãã®æ¯”è¼ƒçµæžœã‚’çµ±è¨ˆå¦çš„ã«ã¯ã£ãã‚Šã•ã›ãŸã„æ™‚ã«ä½¿ã†æ–¹æ³•è«–ã§ã™ã€‚[twitter:@KuboBook]å…ˆç”Ÿã‚‚ä»°ã‚‹ã‚ˆã†ã«å®Ÿéš›ã«ã¯æ¤œå®šä¸€è¾ºå€’ã§è¡Œãã‚ˆã‚Šã¯çµ±è¨ˆãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã¨ã‹ã«ã‚·ãƒ•ãƒˆã™ã‚‹æ–¹ãŒã‚ˆã‚Šè¡¨ç¾åŠ›ãŒé«˜ãã¦è‰¯ã„ã®ã§ã™ãŒã€ä»Šã§ã‚‚ãƒ“ã‚¸ãƒã‚¹ã®ç¾å ´ã§ã¯æ§˜ã€…ãªæ„æ€æ±ºå®šã®ã‚µãƒãƒ¼ãƒˆã‚’ç›®çš„ã¨ã—ã¦å¤šç”¨ã•ã‚Œã¦ã„ã‚‹ã‚ˆã†ã§ã™ã€‚ã“ã“ã§ã¯3ã¤ã®ä¾‹ã‚’æŒ™ã’ã¾ã™ã€‚

tæ¤œå®š

åŸºæœ¬çš„ã«ã¯ã€Œå¹³å‡å€¤åŒå£«ã§å·®ãŒã‚ã‚‹ã‹ã©ã†ã‹ã‚’æ¯”è¼ƒã—ãŸã„å ´åˆã€ã«ä½¿ã„ã¾ã™ã€‚ä»¥å‰æ‹™è‘—ã§ç”¨ã„ãŸã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã§è©¦ã—ã¦ã¿ã¾ã—ã‚‡ã†ã€‚æƒ³å®šã¨ã—ã¦ã¯ã€Œã‚ã‚‹ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹åŸºç›¤2ç¨®é¡žã®é–“ã§ç‰¹å®šã®ã‚¯ã‚¨ãƒªã®ãƒ¬ã‚¤ãƒ†ãƒ³ã‚·åŒå£«ã‚’æ¯”è¼ƒã—ã¦ã€ã©ã¡ã‚‰ãŒã‚ˆã‚Šé«˜é€Ÿã‹ã‚’æ˜Žã‚‰ã‹ã«ã—ãŸã„ã€ã¨ã„ã†ã‚±ãƒ¼ã‚¹ã§ã™ã€‚

> d<-read.csv('https://raw.githubusercontent.com/ozt-ca/tjo.hatenablog.samples/master/r_samples/public_lib/DM_sampledata/ch3_2_2.txt',header=T,sep=' ')
> head(d)
        DB1      DB2
1 0.9477293 2.465692
2 1.4046824 2.132022
3 1.4064391 2.599804
4 1.8396669 2.366184
5 1.3265343 1.804903
6 2.3114898 2.449027
> boxplot(d) # ç®±ã²ã’å›³ï¼ˆä¸‹ã‚’å‚ç…§ï¼‰ã‚’ãƒ—ãƒãƒƒãƒˆã™ã‚‹
> t.test(d$DB1,d$DB2) # tæ¤œå®šã¯t.testé–¢æ•°ã§

	Welch Two Sample t-test

data:  d$DB1 and d$DB2
t = -3.9165, df = 22.914, p-value = 0.0006957
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.0998402 -0.3394647
sample estimates:
mean of x mean of y 
 1.575080  2.294733 
# ç‰åˆ†æ•£æ€§ã‚’ä»®å®šã—ãªã„Welchã®æ¤œå®šãŒè‡ªå‹•çš„ã«é©ç”¨ã•ã‚Œã‚‹

p < 0.05ã¨ã„ã†ã“ã¨ã§ã€DB1ã®æ–¹ãŒã‚ˆã‚Šï¼ˆçµ±è¨ˆå¦çš„ã«æœ‰æ„ã«ï¼‰é«˜é€Ÿã§ã‚ã‚‹ã€ã¨ã¿ãªã—ã¦è‰¯ã•ãã†ã§ã™*2ã€‚

ã‚«ã‚¤äºŒä¹—æ¤œå®š

ãƒ“ã‚¸ãƒã‚¹ã‚·ãƒ¼ãƒ³ã«ã‚ã‚ŠãŒã¡ãªãƒ‘ã‚¿ãƒ¼ãƒ³ã¨ã—ã¦ã¯ã€ã€Œæ–½ç–ã®æœ‰ç„¡ã§ã€Œâ—‹â—‹çŽ‡ã€ã«å·®ãŒã‚ã‚‹ã‹ã©ã†ã‹æ¯”è¼ƒã—ãŸã„å ´åˆã€ã«ä½¿ãˆã‚‹çµ±è¨ˆå¦çš„æ¤œå®šã§ã™ã€‚ä¾‹ãˆã°ã‚ã‚‹ã‚¹ãƒžãƒ›ã‚¢ãƒ—ãƒªã®å‹•ç·šæ”¹å–„ã‚’è¡Œã†å‰ã¨è¡Œã£ãŸå¾Œã¨ã§ã€CVæ•°ãŒä»¥ä¸‹ã®ã‚ˆã†ã«å¤‰ã‚ã£ãŸã¨æƒ³å®šã—ã¾ã—ã‚‡ã†ã€‚

	CVã—ãŸ	CVã—ãªã‹ã£ãŸ
æ”¹å–„å‰	25	117
æ”¹å–„å¾Œ	16	32

ã“ã®ã‚ˆã†ã«ã€Œæ—¢ã«é›†è¨ˆã•ã‚ŒãŸ(tabulated)ãƒ‡ãƒ¼ã‚¿åŒå£«ã§ãã®ã€ŽçŽ‡ã€ã‚’æ¯”è¼ƒã—ãŸã„å ´åˆã€ã¯ã€tæ¤œå®šã®ã‚ˆã†ã«ç”Ÿãƒ‡ãƒ¼ã‚¿ã‚‚ã—ãã¯å¹³å‡ã¨æ¨™æº–åå·®ã‹ã‚‰ãƒ‡ãƒ¼ã‚¿åŒå£«ã®ã°ã‚‰ã¤ãã‚’è¸ã¾ãˆã¦æ¯”è¼ƒã™ã‚‹æ–¹æ³•ã¯ä½¿ãˆãšã€ä»£ã‚ã‚Šã«å…ƒã®ãƒ‡ãƒ¼ã‚¿åŒå£«ãŒåŒã˜åˆ†å¸ƒã«åŸºã¥ãã‹ã©ã†ã‹ã‚’æ¯”ã¹ã‚‹ã‚«ã‚¤äºŒä¹—æ¤œå®šï¼ˆç‹¬ç«‹æ€§ã®æ¤œå®šï¼‰ãŒå®šç•ªã§ã™ã€‚Rã§ã¯ä»¥ä¸‹ã®ã‚ˆã†ã«å®Ÿè¡Œã§ãã¾ã™ã€‚

> d<-matrix(c(25,117,16,32),ncol=2,byrow=T)
> chisq.test(d) # chisq.testé–¢æ•°ã§ã‚«ã‚¤äºŒä¹—æ¤œå®š

	Pearson's Chi-squared test with Yates' continuity correction

data:  d
X-squared = 4.3556, df = 1, p-value = 0.03689

ã“ã¡ã‚‰ã‚‚p < 0.05ã¨ã„ã†ã“ã¨ã§ã€å‹•ç·šæ”¹å–„ã«ã‚ˆã‚‹CVå¢—åŠ ã®åŠ¹æžœãŒã‚ã£ãŸã¨ã¿ãªã—ã¦è‰¯ã•ãã†ã§ã™ã€‚ãªãŠã€ŒåŒã˜æ–½ç–ã‚’è¡Œã£ãŸã¨ä»®å®šã§ãã‚‹ã€è¤‡æ•°ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã”ã¨ã«ã‚«ã‚¤äºŒä¹—æ¤œå®šã‚’è¡Œã£ãŸçµæžœã‚’çµ±åˆã™ã‚‹ã«ã¯ã€ä»¥ä¸‹ã®è¨˜äº‹ã§ç´¹ä»‹ã—ãŸãƒ¡ã‚¿ã‚¢ãƒŠãƒªã‚·ã‚¹ã®æ‰‹æ³•ãŒä½¿ãˆã¾ã™ã€‚

ã“ã‚Œã«é™ã‚‰ãšã€çµ±è¨ˆå¦çš„æ¤œå®šã®å¤šãã®æ‰‹æ³•ãŒåŒæ§˜ã«ãƒ¡ã‚¿ã‚¢ãƒŠãƒªã‚·ã‚¹ã®æ–¹æ³•è«–ã«åŸºã¥ã„ã¦ã€Œè¤‡æ•°ã®çµæžœã‚’çµ±åˆã™ã‚‹ã€ã“ã¨ãŒå¯èƒ½ãªã®ã§ã€çŸ¥ã£ã¦ãŠã„ã¦æã¯ãªã„ã§ã™ã€‚

ANOVAï¼ˆåˆ†æ•£åˆ†æžï¼‰

è‰²ã€…ãªãƒ‘ã‚¿ãƒ¼ãƒ³ãŒã‚ã‚Šå¾—ã¾ã™ãŒã€åŸºæœ¬çš„ã«ã¯ã€Œ3ã¤ä»¥ä¸Šã®ãƒ‡ãƒ¼ã‚¿åŒå£«ã§2ã¤ä»¥ä¸Šã®æ–½ç–ã‚’æ‰“ã¡åˆ†ã‘ãŸæ™‚ã«å·®ãŒã‚ã‚‹ã‹ã©ã†ã‹æ¯”è¼ƒã—ãŸã„å ´åˆã€ã«ç”¨ã„ã‚‹æ‰‹æ³•ã§ã™ã€‚åŽ³å¯†ã«ã¯ã‚„ã‚„ç•°ãªã‚Šã¾ã™ãŒã€ã‚¢ã‚¤ãƒ‡ã‚¢ã¨ã—ã¦ã¯tæ¤œå®šã‚’3ã¤ä»¥ä¸Šã®ãƒ‡ãƒ¼ã‚¿åŒå£«ã«æ‹¡å¼µã—ãŸã®ã¨ã»ã¼åŒã˜è€ƒãˆæ–¹ã§ã™ã€‚ãŸã ã—å–ã‚Šçµ„ã¿æ–¹ã¨ã—ã¦ã¯ã“ã®å¾Œã«å‡ºã¦ãã‚‹é‡å›žå¸°åˆ†æžï¼ˆæ£è¦ç·šå½¢ãƒ¢ãƒ‡ãƒ«ï¼‰ã¨ã»ã¼åŒã˜ãªã®ã§ã€ç‰¹ã«æ–½ç–ã®åŠ¹æžœãŒã€Œæ£ã‹è² ã‹ã€ã‚’çŸ¥ã‚ŠãŸã„ã‚±ãƒ¼ã‚¹ã§ã¯ã‚€ã—ã‚é‡å›žå¸°åˆ†æžã«æ›¿ãˆãŸæ–¹ãŒè‰¯ã„ã“ã¨ãŒå¤šã„ã‹ãªã¨ã€‚

ä¾‹ãˆã°ã€ã€Œã‚ã‚‹2ã¤ã®ã‚«ãƒ†ã‚´ãƒªã®å•†å“ã‚’å–ã‚Šæ‰±ã†å¯¾é¢è²©å£²ã‚³ãƒ¼ãƒŠãƒ¼ã§2é€šã‚Šã®ãƒ—ãƒãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³ã‚’æ‰“ã¡åˆ†ã‘ã¦4æ—¥é–“ã«æ¸¡ã£ã¦è²©å£²ã—ãŸæ™‚ã«ã€ãƒ—ãƒãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³ã®ã‚„ã‚Šæ–¹ã«ã‚ˆã£ã¦å£²ä¸Šå€‹æ•°ãŒå¤‰ã‚ã‚‹ã‹ã©ã†ã‹ã€*3ã‚’çŸ¥ã‚ŠãŸã„ã¨ã—ã¾ã—ã‚‡ã†ã€‚ã“ã®å ´åˆã€å¤‰æ•°prã«ãƒ—ãƒãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³ã®æœ‰ç„¡ã‚’ã€å¤‰æ•°categoryã«å•†å“ã‚«ãƒ†ã‚´ãƒªã‚’è¡¨ã™ã‚«ãƒ†ã‚´ãƒªå¤‰æ•°ã‚’å…¥ã‚Œã¦ã€å£²ä¸Šå€‹æ•°ã‚’å¤‰æ•°cntã¨ã—ãŸæ™‚ã€ä»¥ä¸‹ã®ã‚ˆã†ãªæ„Ÿã˜ã§ANOVAã§è¨ˆç®—ã§ãã¾ã™ã€‚

> d<-data.frame(cnt=c(210,435,130,720,320,470,250,380,290,505,180,320,310,390,410,510),pr=c(rep(c('F','Y'),8)),category=rep(c('a','a','b','b'),4))
> d.aov<-aov(cnt~.^2,d) # ANOVAã¯aové–¢æ•°ã§è¨ˆç®—ã™ã‚‹
> summary(d.aov)
            Df Sum Sq Mean Sq F value  Pr(>F)   
pr           1 166056  166056  12.984 0.00362 **
category     1     56      56   0.004 0.94822   
pr:category  1   5256    5256   0.411 0.53353   
Residuals   12 153475   12790                   
---
Signif. codes:  0 â€˜***â€™ 0.001 â€˜**â€™ 0.01 â€˜*â€™ 0.05 â€˜.â€™ 0.1 â€˜ â€™ 1

ãƒ—ãƒãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³ãŒç•°ãªã‚Œã°å£²ä¸Šå€‹æ•°ã‚‚å¤‰ã‚ã‚‹ã¨ã¿ãªã—ã¦è‰¯ã•ãã†ã§ã™ã€‚ä¸€æ–¹ã§å•†å“ã‚«ãƒ†ã‚´ãƒªé–“ã§ã®å·®ã¯ãªãã€ãªãŠã‹ã¤å•†å“ã‚«ãƒ†ã‚´ãƒªãŒå¤‰ã‚ã£ãŸå ´åˆã«ãƒ—ãƒãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³ã®åŠ¹æžœã«é•ã„ãŒå‡ºã‚‹ã“ã¨ã‚‚ãªã•ãã†ã§ã™ï¼ˆäº¤äº’ä½œç”¨ãŒæœ‰æ„ã§ãªã„ãŸã‚ï¼‰ã€‚

ãã®ä»–ã®æ¤œå®š

Fæ¤œå®šã‚„ç¬¦å·å’Œæ¤œå®šãªã©ã‚‚ã‚ã‚Šã¾ã™ã—ã€ã‚‚ã£ã¨è¨€ãˆã°ãƒ‘ãƒ©ãƒ¡ãƒˆãƒªãƒƒã‚¯æ¤œå®šï¼ˆãƒ‡ãƒ¼ã‚¿ã®åˆ†å¸ƒå½¢çŠ¶ã«å‰æã‚’è¦æ±‚ã™ã‚‹ï¼‰ã¨ãƒŽãƒ³ãƒ‘ãƒ©ãƒ¡ãƒˆãƒªãƒƒã‚¯æ¤œå®šï¼ˆç‰¹ã«ãƒ‡ãƒ¼ã‚¿ã®åˆ†å¸ƒå½¢çŠ¶ã«ã“ã ã‚ã‚‰ãªã„ï¼‰ã¨ã®é•ã„ã¨è¨€ã£ãŸè©±ã‚‚ã‚ã‚Šã¾ã™ãŒã€ã“ã“ã§ã¯å…¨ã¦å‰²æ„›ã—ã¾ã™ã€‚æ‚ªã—ã‹ã‚‰ãšã€‚

é‡å›žå¸°åˆ†æžï¼ˆç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ï¼‰

ã“ã‚Œã¾ãŸåŸºæœ¬ã®ã€Œãã€ã¿ãŸã„ãªæ‰‹æ³•ã§ã‚ã‚‹ã«ã‚‚ã‹ã‹ã‚ã‚‰ãšã€ç‰¹ã«ãƒ“ã‚¸ãƒã‚¹ã‚µã‚¤ãƒ‰ã®å®Ÿå‹™ã®ç¾å ´ã§ã¯æ„å¤–ã¨ã¾ã ä»Šã§ã‚‚åºƒã¾ã£ã¦ã„ãªã„æ‰‹æ³•ã®ä»£è¡¨æ ¼ã§ã™ã*4ã€‚ãã®å®Ÿè·µä¾‹ã¨ã—ã¦ã€æ‹™è‘—ã§ã‚‚ç”¨ã„ãŸã€Œã‚ã‚‹åœ°åŸŸã§ã®ãƒ“ãƒ¼ãƒ«ã®å£²ä¸Šé«˜ã‚’ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã™ã‚‹ã€ä¾‹é¡Œã‚’ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

ã“ã“ã§ã¯ç›®çš„å¤‰æ•°Revenueï¼ˆãã®åœ°åŸŸã§ã®ãƒ“ãƒ¼ãƒ«ã®å£²ä¸Šé«˜ï¼‰ã‚’ã€èª¬æ˜Žå¤‰æ•°ã§ã‚ã‚‹CMï¼ˆTVCMãŒæ”¾æ˜ ã•ã‚ŒãŸãƒœãƒªãƒ¥ãƒ¼ãƒ ï¼‰ã€Tempï¼ˆæ°—æ¸©ï¼‰ã€Fireworkï¼ˆãã®åœ°åŸŸã§ã®èŠ±ç«å¤§ä¼šã®æœ‰ç„¡ï¼‰ã§é‡å›žå¸°åˆ†æžã§ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã™ã‚‹ã“ã¨ã‚’è€ƒãˆã¾ã™ã€‚

> d<-read.csv('https://raw.githubusercontent.com/ozt-ca/tjo.hatenablog.samples/master/r_samples/public_lib/DM_sampledata/ch4_3_2.txt',header=T,sep=' ')
> head(d)
   Revenue  CM Temp Firework
1 47.14347 141   31        2
2 36.92363 144   23        1
3 38.92102 155   32        0
4 40.46434 130   28        0
5 51.60783 161   37        0
6 32.87875 154   27        0
> d.lm<-lm(Revenue~.,d) # ç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ã¯lmé–¢æ•°
> summary(d.lm)

Call:
lm(formula = Revenue ~ ., data = d)

Residuals:
   Min     1Q Median     3Q    Max 
-6.028 -3.038 -0.009  2.097  8.141 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 17.23377   12.40527   1.389  0.17655    
CM          -0.04284    0.07768  -0.551  0.58602    
Temp         0.98716    0.17945   5.501    9e-06 ***
Firework     3.18159    0.95993   3.314  0.00271 ** 
---
Signif. codes:  0 â€˜***â€™ 0.001 â€˜**â€™ 0.01 â€˜*â€™ 0.05 â€˜.â€™ 0.1 â€˜ â€™ 1

Residual standard error: 3.981 on 26 degrees of freedom
Multiple R-squared:  0.6264,	Adjusted R-squared:  0.5833 
F-statistic: 14.53 on 3 and 26 DF,  p-value: 9.342e-06

# ä»¥ä¸‹ãƒ—ãƒãƒƒãƒˆ
> matplot(cbind(d$Revenue,predict(d.lm,newdata=d[,-1])),type='l',lwd=c(2,3),lty=1,col=c(1,2))
> legend('topleft',legend=c('Data','Predicted'),lwd=c(2,3),lty=1,col=c(1,2),ncol=1)

æ°—æ¸©ã¨èŠ±ç«å¤§ä¼šã®é–‹å‚¬ã®æœ‰ç„¡ãŒé‡è¦ã‚‰ã—ã„ï¼ˆãã—ã¦TVCMã¯ã‚ã¾ã‚Šé–¢ä¿‚ãªã„ï¼‰ã“ã¨ãŒåˆ†ã‹ã‚Šã¾ã—ãŸã€‚ä»®ã«æœªæ¥ã®èª¬æ˜Žå¤‰æ•°ã®å€¤ãŒåˆ†ã‹ã‚‹å ´åˆï¼ˆTVCMã¯è¨ˆç”»å€¤ãŒã‚ã‚‹ã—æ°—æ¸©ã‚‚å¤©æ°—äºˆå ±ãªã©ã®å½¢ã§å…¥æ‰‹å¯èƒ½ï¼‰ã€predictãƒ¡ã‚½ãƒƒãƒ‰ã§æœªæ¥ã®å£²ä¸Šé«˜ã‚’äºˆæ¸¬ã™ã‚‹ã“ã¨ã‚‚å¯èƒ½ã§ã™ã€‚ãªãŠã€ä»¥å‰slideshareã§å…¬é–‹ã—ãŸã‚¹ãƒ©ã‚¤ãƒ‰ã§ã‚‚æ›¸ãã¾ã—ãŸãŒã€é‡å›žå¸°åˆ†æžã‚‚å«ã‚ãŸç·šå½¢ãƒ¢ãƒ‡ãƒ«ãƒ•ã‚¡ãƒŸãƒªãƒ¼å…¨èˆ¬ã®è€ƒãˆæ–¹ã‚’å›³ç¤ºã—ãŸã‚‚ã®ãŒã“ã¡ã‚‰ã€‚

è¦ã¯ã€ã‚ã‚‹ç›®çš„å¤‰æ•°ã‚’èª¬æ˜Žå¤‰æ•°ã®ç·šå½¢å’Œã§è¡¨ç¾ã™ã‚‹ã‚ˆã†ãªãƒ¢ãƒ‡ãƒ«ã‚’æœ€é©åŒ–è¨ˆç”»ã«ã‚ˆã£ã¦æ±‚ã‚ã‚‹ã€ã¨ã„ã†ã®ãŒæ ¹æœ¬çš„ãªç™ºæƒ³ã§ã™ã€‚ã“ã‚Œã¯ãã®ä»–ã®å¤šãã®çµ±è¨ˆãƒ¢ãƒ‡ãƒªãƒ³ã‚°ãŠã‚ˆã³æ©Ÿæ¢°å¦ç¿’ã«ãŠã„ã¦ã‚‚å…±é€šã—ã¦ã„ã‚‹æ¦‚å¿µã§ã™ã®ã§ã€è¦šãˆã¦ãŠãã¨è‰¯ã„ã§ã—ã‚‡ã†ã€‚

ï¼ˆâ€»ã¡ãªã¿ã«ã€ç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ã¯æ©Ÿæ¢°å¦ç¿’ã®åˆ†é‡Žã«ãŠã„ã¦ã‚‚åŸºæœ¬ã®ã€Œãã€ã¨ã—ã¦å–ã‚Šä¸Šã’ã‚‰ã‚Œã‚‹ã“ã¨ãŒå¤šãã€ã‹ã®ã€Œé»„è‰²ã„æœ¬ã€ã“ã¨PRMLã¯ã˜ã‚å¤šãã®ãƒ†ã‚ã‚¹ãƒˆã§ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’ã‚¹ã‚¯ãƒ©ãƒƒãƒã‹ã‚‰å®Ÿè£…ã™ã‚‹éš›ã®é¡Œæã¨ã—ã¦ã‚‚ç´¹ä»‹ã•ã‚Œã¦ã„ã¾ã™ã€‚ä¸€èˆ¬ã«ã¯è¡Œåˆ—å¼ã‚’ã‚µã‚¯ã‚µã‚¯è§£ã‘ã°ãã‚Œã§ãŠã—ã¾ã„ã¨ã„ã†ä»£ç‰©ã§ã™ãŒã€ã‚ãˆã¦æœ€æ€¥é™ä¸‹æ³•ã§ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æŽ¨å®šã™ã‚‹ã‚³ãƒ¼ãƒ‰ã‚’Pythonã‚ãŸã‚Šã§æ›¸ã„ã¦æŒ™å‹•ã‚’çŸ¥ã‚‹ã¨ã„ã†ã®ã‚‚è‰¯ã„å‹‰å¼·ã«ãªã‚‹ã‹ã¨æ€ã„ã¾ã™ï¼‰

ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ï¼ˆGLMï¼šãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ãƒ»ãƒã‚¢ã‚½ãƒ³å›žå¸°ãªã©ï¼‰

ã“ã“ã‹ã‚‰çµ±è¨ˆå¦ã¨æ©Ÿæ¢°å¦ç¿’ã®å¢ƒç•Œã‚¾ãƒ¼ãƒ³ã«ã—ã¦ã€åŒæ™‚ã«çµ±è¨ˆãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã®é†é†å‘³ã¿ãŸã„ãªã‚¾ãƒ¼ãƒ³ã«å…¥ã£ã¦ã„ãã¾ã™ã€‚åŸºæœ¬çš„ãªç™ºæƒ³ã¯é‡å›žå¸°åˆ†æžï¼ˆç·šå½¢ãƒ¢ãƒ‡ãƒ«ï¼‰ã¨åŒã˜ã§ã™ãŒã€ä¸€ã¤é•ã†ã®ã¯ç·šå½¢ãƒ¢ãƒ‡ãƒ«ã¯ç›®çš„å¤‰æ•°ãŒã€Œæ£è¦åˆ†å¸ƒã«å¾“ã†ã€ã¨ä»®å®šã—ã¦ã„ã‚‹ã®ã«å¯¾ã—ã€ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ã§ã¯ç›®çš„å¤‰æ•°ãŒã©ã®ã‚ˆã†ãªåˆ†å¸ƒã«å¾“ã†ã‹ã«ã‚ˆã£ã¦ãƒ¢ãƒ‡ãƒ«ã®ç«‹ã¦æ–¹ã‚’å¤‰ãˆã‚‹å¿…è¦ãŒã‚ã‚‹ç‚¹ã§ã™ã€‚ãã‚Œã‚†ãˆã€ç›®çš„å¤‰æ•°ãŒå¾“ã†åˆ†å¸ƒã®åå‰ã‚’å† ã—ã¦ä¾‹ãˆã°ã€Œãƒã‚¢ã‚½ãƒ³å›žå¸°ã€ã€Œè² ã®äºŒé …åˆ†å¸ƒå›žå¸°ã€ã¨ã„ã£ãŸå‘¼ã³æ–¹ã‚’ã™ã‚‹ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚

ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

ã“ã‚Œã¯äºŒå€¤åˆ†é¡žã§ã‚ã‚‹ã“ã¨ã‹ã‚‰æ©Ÿæ¢°å¦ç¿’åˆ†é‡Žã«ãŠã„ã¦ã‚‚é‡è¦ãªåˆæ©ã¨ã—ã¦æ‰±ã‚ã‚Œã‚‹æ‰‹æ³•ã§ã™ã€‚åˆ†å¸ƒã¨ã„ã†ç‚¹ã§ã¯äºŒé …åˆ†å¸ƒã«å¾“ã†ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ã§ã™ã€‚ä»¥å‰ã®è¨˜äº‹ã§ã‚‚ç°¡å˜ã«å–ã‚Šä¸Šã’ãŸã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚

ã“ã“ã§ã¯æ‹™è‘—6ç« ã®ãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã„ã¾ã™ã€‚d21-d26ã¾ã§ã®6ã¤ã®ãƒ—ãƒãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³ãƒšãƒ¼ã‚¸ã‚’ç”¨æ„ã—ãŸECã‚µã‚¤ãƒˆã«ãŠã„ã¦ã€ã©ã®ãƒšãƒ¼ã‚¸ã‚’è¨ªå•ã—ãŸorã—ãªã„ã‹ãŒCVã«ã‚ˆã‚Šå¯„ä¸Žã™ã‚‹ã‹ã‚’èª¿ã¹ãŸã„ã€ã¨ã„ã†ã‚·ãƒŠãƒªã‚ªã§ã™ã€‚

> d<-read.csv('https://raw.githubusercontent.com/ozt-ca/tjo.hatenablog.samples/master/r_samples/public_lib/DM_sampledata/ch6_4_2.txt',header=T,sep=' ')
> d$cv<-as.factor(d$cv) # ç›®çš„å¤‰æ•°ã‚’ã‚«ãƒ†ã‚´ãƒªåž‹ã«ç›´ã™
> d.glm<-glm(cv~.,d,family=binomial) # GLMã¯glmé–¢æ•°ã«familyå¼•æ•°ã§åˆ†å¸ƒã‚’æŒ‡å®š
> summary(d.glm)

Call:
glm(formula = cv ~ ., family = binomial, data = d)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3793  -0.3138  -0.2614   0.4173   2.4641  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept)  -1.0120     0.9950  -1.017   0.3091  
d21           2.0566     0.8678   2.370   0.0178 *
d22          -1.7610     0.7464  -2.359   0.0183 *
d23          -0.2136     0.6131  -0.348   0.7276  
d24           0.2994     0.8368   0.358   0.7205  
d25          -0.3726     0.6064  -0.614   0.5390  
d26           1.4258     0.6408   2.225   0.0261 *
---
Signif. codes:  0 â€˜***â€™ 0.001 â€˜**â€™ 0.01 â€˜*â€™ 0.05 â€˜.â€™ 0.1 â€˜ â€™ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 173.279  on 124  degrees of freedom
Residual deviance:  77.167  on 118  degrees of freedom
AIC: 91.167

Number of Fisher Scoring iterations: 5

d21ãƒšãƒ¼ã‚¸ãŒæœ€ã‚‚è‰¯ã•ãã†ã§ã€é€†ã«d22ã¯é¿ã‘ãŸæ–¹ãŒè‰¯ã•ãã†ã ã¨ã„ã†ã“ã¨ãŒè¦‹ã¦å–ã‚Œã¾ã™ã€‚ã“ã¡ã‚‰ã®ãƒ¢ãƒ‡ãƒ«ã‚‚ç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«åŒæ§˜ã«predictãƒ¡ã‚½ãƒƒãƒ‰ã§æœªçŸ¥ãƒ‡ãƒ¼ã‚¿ã®èª¬æ˜Žå¤‰æ•°ãŒä¸Žãˆã‚‰ã‚Œã•ãˆã™ã‚Œã°ç›®çš„å¤‰æ•°ã‚’äºˆæ¸¬ã™ã‚‹ã“ã¨ã‚‚å¯èƒ½ã§ã™ã€‚

ãƒã‚¢ã‚½ãƒ³å›žå¸°

ä¸€æ–¹ã€ã“ã¡ã‚‰ã¯ã©ã¡ã‚‰ã‹ã¨ã„ã†ã¨ç´”ç„¶ãŸã‚‹çµ±è¨ˆå¦ã®é ˜åŸŸã®è©±ã§ã€ç›®çš„å¤‰æ•°ãŒãƒã‚¢ã‚½ãƒ³åˆ†å¸ƒã«å¾“ã†å ´åˆã«ç”¨ã„ã‚‰ã‚Œã‚‹ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ã§ã™ã€‚ãƒã‚¢ã‚½ãƒ³åˆ†å¸ƒã§ã‚°ã‚°ã‚‹ã¨è‰²ã€…ãªèª¬æ˜ŽãŒå‡ºã¦ãã¾ã™ãŒã€åŸºæœ¬çš„ã«ã¯ã€Œä½•ã‹ã®æ¯é›†å›£ãŒã‚ã£ã¦ãã®ä¸ã‹ã‚‰ç¨€ã«ç™ºç”Ÿã™ã‚‹ç¾è±¡ã®ã€Žå›žæ•°ã€ãŒå¾“ã†ç¢ºçŽ‡åˆ†å¸ƒã€*5ã¨æ€ãˆã°å¤§ä¸ˆå¤«ã§ã™ã€‚ä¾‹ãˆã°ã“ã‚“ãªæ„Ÿã˜ã®åˆ†å¸ƒå½¢çŠ¶ã§ã‚ã‚Œã°ãƒã‚¢ã‚½ãƒ³åˆ†å¸ƒã®å¯èƒ½æ€§ãŒé«˜ã„ã§ã™ã€‚

ãƒ“ã‚¸ãƒã‚¹å®Ÿå‹™ã ã¨ã€Œ1æ—¥å½“ãŸã‚Šã®ç·ã‚µã‚¤ãƒˆè¨ªå•è€…æ•°ã«å ã‚ã‚‹CVãƒ¦ãƒ¼ã‚¶ãƒ¼æ•°ã€ãªã©ã¯ï¼ˆåˆ†æ¯ã‚’å‹˜æ¡ˆã™ã‚‹ã¨ã„ã†æ¡ä»¶ä¸‹ã§ï¼‰ãƒã‚¢ã‚½ãƒ³åˆ†å¸ƒã«å¾“ã†ãƒ‡ãƒ¼ã‚¿ã®ä»£è¡¨ä¾‹ã§ã™ã*6ã€‚ã¡ãªã¿ã«ä»¥å‰ã®è¨˜äº‹ã§ãƒã‚¢ã‚½ãƒ³å›žå¸°ã‚’å«ã‚ãŸä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«å…¨èˆ¬ã«ã¤ã„ã¦è‰²ã€…è€ƒå¯Ÿã—ãŸã“ã¨ãŒã‚ã‚‹ã®ã§ã€ã‚ˆã‚ã—ã‘ã‚Œã°ã“ã¡ã‚‰ã‚‚ã©ã†ãžã€‚

ã¨ã“ã‚ã§ä¾‹é¡Œã§ã™ãŒã€ã“ã¡ã‚‰ã¯æ‰‹é ƒãªãƒ‡ãƒ¼ã‚¿ãŒãªã„ã®ã§Rã®helpã«è¼‰ã£ã¦ã„ã‚‹ä¾‹ã‚’ãã®ã¾ã¾ä½¿ã†ã“ã¨ã«ã—ã¾ã™ã€‚Dobsonã®1990å¹´ã®è‘—æ›¸"An Introduction to Generalized Linear Models"ã«æŽ²è¼‰ã•ã‚Œã¦ã„ã‚‹ä½•ã‹ã®ç–«å¦èª¿æŸ»ã«é–¢ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã®ã‚ˆã†ã§ã™ãŒã€æœ¬æ›¸æœªèªã«ã¤ãè©³ç´°ã¯åˆ†ã‹ã‚Šã¾ã›ã‚“ã”ã‚ã‚“ãªã•ã„ã€‚ã€‚ã€‚

> ## Dobson (1990) Page 93: Randomized Controlled Trial :
> counts <- c(18,17,15,20,10,20,25,13,12)
> outcome <- gl(3,1,9)
> treatment <- gl(3,3)
> print(d.AD <- data.frame(treatment, outcome, counts))
  treatment outcome counts
1         1       1     18
2         1       2     17
3         1       3     15
4         2       1     20
5         2       2     10
6         2       3     20
7         3       1     25
8         3       2     13
9         3       3     12
> glm.D93 <- glm(counts ~ outcome + treatment, family = poisson) # familyå¼•æ•°ã«poissonã‚’æŒ‡å®šã™ã‚‹ã“ã¨ã§ãƒã‚¢ã‚½ãƒ³å›žå¸°
> summary(glm.D93)

Call:
glm(formula = counts ~ outcome + treatment, family = poisson)

Deviance Residuals: 
       1         2         3         4         5         6         7         8         9  
-0.67125   0.96272  -0.16965  -0.21999  -0.95552   1.04939   0.84715  -0.09167  -0.96656  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.045e+00  1.709e-01  17.815   <2e-16 ***
outcome2    -4.543e-01  2.022e-01  -2.247   0.0246 *  
outcome3    -2.930e-01  1.927e-01  -1.520   0.1285    
treatment2   1.338e-15  2.000e-01   0.000   1.0000    
treatment3   1.421e-15  2.000e-01   0.000   1.0000    
---
Signif. codes:  0 â€˜***â€™ 0.001 â€˜**â€™ 0.01 â€˜*â€™ 0.05 â€˜.â€™ 0.1 â€˜ â€™ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 10.5814  on 8  degrees of freedom
Residual deviance:  5.1291  on 4  degrees of freedom
AIC: 56.761

Number of Fisher Scoring iterations: 4
# AICã§ãƒ¢ãƒ‡ãƒ«ã®æ±ŽåŒ–æ€§èƒ½ã‚’ã€Residual devianceã¨degrees of freedomã¨ã®æ¯”çŽ‡ã‹ã‚‰overdispersionã‹ã©ã†ã‹ã‚’ãƒã‚§ãƒƒã‚¯ã™ã‚‹

> hist(counts,breaks=50) # ãƒ’ã‚¹ãƒˆã‚°ãƒ©ãƒ ã‚’ãƒ—ãƒãƒƒãƒˆ

outcome2ãŒé‡è¦ã ã¨ã„ã†ã“ã¨ã«ãªã‚Šã¾ã—ãŸã€‚ãªãŠã€ä¸Šè¨˜éŽåŽ»è¨˜äº‹ã«ã‚‚ã‚ã‚‹ã‚ˆã†ã«ãƒã‚¢ã‚½ãƒ³å›žå¸°ã¯ç›®çš„å¤‰æ•°ã«0ãŒã‚„ãŸã‚‰å¤šã„å ´åˆã¯ã†ã¾ããƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°ã—ãªã„ã®ã§ã€ãã®æ™‚ã¯è² ã®äºŒé …åˆ†å¸ƒã«åŸºã¥ãGLMã‚’ç”¨ã„ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚Rã ã¨{VGAM}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®glm.nbé–¢æ•°ã§è¨ˆç®—ã§ãã¾ã™ã€‚

æ£å‰‡åŒ–ï¼ˆL1 / L2ãƒŽãƒ«ãƒ ï¼‰

ã“ã®è¾ºã‹ã‚‰æ©Ÿæ¢°å¦ç¿’ã®è¦ç´ ãŒæ®µã€…å¢—ãˆã¦ãã¾ã™ã€‚ãã®ç¬¬ä¸€æ©ã¨ã—ã¦å–ã‚Šä¸Šã’ã‚‹ã®ãŒã€ã“ã®ã€Œæ£å‰‡åŒ–ã€ã€‚

ã‚ã‚‹ãƒ¢ãƒ‡ãƒ«ãŒéŽåŽ»ã®ãƒ‡ãƒ¼ã‚¿ã«ã°ã‹ã‚Šå½“ã¦ã¯ã¾ã‚ŠãŒè‰¯ã„ã ã‘ã§ãªãæœªçŸ¥ã®ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ã‚‚ã‚ã‚‹ç¨‹åº¦ãã¡ã‚“ã¨å½“ã¦ã¯ã¾ã‚‹åº¦åˆã„ã®ã“ã¨ã‚’ã€Œæ±ŽåŒ–æ€§èƒ½ï¼ˆèƒ½åŠ›ï¼‰ã€ã¨å‘¼ã³ã¾ã™ãŒã€ã“ã®æ±ŽåŒ–æ€§èƒ½ã‚’å‘ä¸Šã•ã›ã‚‹ã¨ã„ã†ç‚¹ã§é‡è¦ãªã®ãŒã€Œæ£å‰‡åŒ–ã€ã¨ã„ã†æ‰‹æ³•ã§ã™ã€‚è©³ç´°ã¯ã“ã¡ã‚‰ã®éŽåŽ»è¨˜äº‹ã‚’ãŠèªã¿ä¸‹ã•ã„ã€‚å¹³ãŸãè¨€ãˆã°ã€Œãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æŽ¨å®šã™ã‚‹éš›ã«åˆ¶ç´„æ¡ä»¶ã‚’åµŒã‚ã‚‹ã“ã¨ã§ã€å¿…è¦ä»¥ä¸Šã«éŽåŽ»ãƒ‡ãƒ¼ã‚¿ã®ãƒŽã‚¤ã‚ºã«ãƒ•ã‚£ãƒƒãƒˆã—ãªã„ã‚ˆã†ã«ã™ã‚‹ã€å·¥å¤«ã‹ãªã€ã¨ã€‚

ç‰¹ã«æ©Ÿæ¢°å¦ç¿’ã«ãŠã„ã¦å¤§äº‹ãªã®ã¯ã€Œå¦ç¿’ãƒ‡ãƒ¼ã‚¿ã¨ï¼ˆãƒ¢ãƒ‡ãƒ«ã®æ€§èƒ½è©•ä¾¡ã®ãŸã‚ã®ï¼‰ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã¯å¿…ãšåˆ¥ã«åˆ†ã‘ã‚‹ã€ï¼ˆäº¤å·®æ¤œè¨¼ï¼šcross validationï¼‰ã¨ã„ã†ã“ã¨ã€‚ã“ã‚Œã‚’ã‚„ã‚‰ãªã„ã¨ã€å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®ãƒŽã‚¤ã‚ºã«ã‚‚ãƒ•ã‚£ãƒƒãƒˆã—ã¦ã—ã¾ã†ã‚ˆã†ãªãƒ¢ãƒ‡ãƒ«ã°ã‹ã‚ŠãŒè¦‹ã‹ã‘ä¸Šã®æ€§èƒ½ãŒè‰¯ãè¦‹ãˆã¦ã—ã¾ã†ã¨ã„ã†ã“ã¨ã«ãªã‚Šã‹ããªã„ã®ã§ã€å¾¹åº•ã—ã¾ã—ã‚‡ã†*7ã€‚

ã¨ã„ã†ã“ã¨ã§ã€ã“ã®ãƒ–ãƒã‚°ã§ä½•åº¦ã‹ä¾‹é¡Œã¨ã—ã¦æŒ™ã’ã¦ã„ã‚‹ç”·å¥³ãƒ†ãƒ‹ã‚¹å››å¤§å¤§ä¼šã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½¿ã£ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚ç”·åã®ãƒ‡ãƒ¼ã‚¿ã‚’å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã¨ã—ã€å¥³åã®ãƒ‡ãƒ¼ã‚¿ã®å‹æ•—ã‚’äºˆæ¸¬ã™ã‚‹ã¨ã„ã†äº¤å·®æ¤œè¨¼ã®å»ºã¦ä»˜ã‘ã§ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚ã“ã“ã§ã¯ä¾‹ã¨ã—ã¦ã€Œä¸è¦ãªèª¬æ˜Žå¤‰æ•°ã‚’å‰Šã‚‹ã€ã‚¿ã‚¤ãƒ—ã®L1æ£å‰‡åŒ–ï¼ˆLassoå›žå¸°ï¼‰ã‚’å®Ÿè·µã—ã¦ã¿ã¾ã™ã€‚ã€Œå…¨ä½“ã‚’èª¿æ•´ã™ã‚‹ã€ã‚¿ã‚¤ãƒ—ã®L2æ£å‰‡åŒ–ï¼ˆRidgeå›žå¸°ï¼‰ã¯ã‚¹ãƒšãƒ¼ã‚¹ã®éƒ½åˆã‚‚ã‚ã‚‹ã®ã§ã“ã“ã§ã¯å‰²æ„›ã¨ã„ã†ã“ã¨ã§ã€‚

> dm<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/exp_uci_datasets/tennis/men.txt',header=T,sep='\t')
> dw<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/exp_uci_datasets/tennis/women.txt',header=T,sep='\t')
> dm<-dm[,-c(1,2,16,17,18,19,20,21,34,35,36,37,38,39)]
> dw<-dw[,-c(1,2,16,17,18,19,20,21,34,35,36,37,38,39)]

# L1æ£å‰‡åŒ–
> library(glmnet)
> dm.cv.glmnet<-cv.glmnet(as.matrix(dm[,-1]),as.matrix(dm[,1]),family="binomial",alpha=1)
# alpha=1ã§L1æ£å‰‡åŒ–ã€alpha=0ã§L2æ£å‰‡åŒ–ã€ãã®é–“ãªã‚‰elastic net
# cv.glmneté–¢æ•°ã¯äº¤å·®æ¤œè¨¼ã«ã‚ˆã£ã¦ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æœ€é©å€¤ã®æŽ¢ç´¢ã‚‚åŒæ™‚ã«ã‚„ã£ã¦ãã‚Œã‚‹
> plot(dm.cv.glmnet)
> coef(dm.cv.glmnet,s=dm.cv.glmnet$lambda.min) # så¼•æ•°ã«æŽ¢ç´¢ã—ãŸãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æœ€é©å€¤ã‚’å…¥ã‚Œã‚‹
25 x 1 sparse Matrix of class "dgCMatrix"
                        1
(Intercept)  3.533402e-01
FSP.1        3.805604e-02
FSW.1        1.179697e-01
SSP.1       -3.275595e-05
SSW.1        1.475791e-01
ACE.1        .           
DBF.1       -8.934231e-02
WNR.1        3.628403e-02
UFE.1       -7.839983e-03
BPC.1        3.758665e-01
BPW.1        2.064167e-01
NPA.1        .           
NPW.1        .           
FSP.2       -2.924528e-02
FSW.2       -1.568441e-01
SSP.2        .           
SSW.2       -1.324209e-01
ACE.2        1.233763e-02
DBF.2        4.032510e-02
WNR.2       -2.071361e-02
UFE.2       -6.114823e-06
BPC.2       -3.648171e-01
BPW.2       -1.985184e-01
NPA.2        .           
NPW.2        1.340329e-02
> table(dw$Result,round(predict(dm.cv.glmnet,as.matrix(dw[,-1]),s=dm.cv.glmnet$lambda.min,type='response'),0))
   
      0   1
  0 215  12
  1  18 207
> sum(diag(table(dw$Result,round(predict(dm.cv.glmnet,as.matrix(dw[,-1]),s=dm.cv.glmnet$lambda.min,type='response'),0))))/nrow(dw)
[1] 0.9336283 # æ£ç”çŽ‡93.4%

# æ¯”è¼ƒï¼šæ™®é€šã®ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ã®å ´åˆ
> dm.glm<-glm(Result~.,dm,family=binomial)
> table(dw$Result,round(predict(dm.glm,newdata=dw[,-1],type='response')))
   
      0   1
  0 211  16
  1  17 208
> sum(diag(table(dw$Result,round(predict(dm.glm,newdata=dw[,-1],type='response')))))/nrow(dw)
[1] 0.9269912 # æ£ç”çŽ‡92.7%

ç¢ºã‹ã«ã€L1æ£å‰‡åŒ–ã§ä¸è¦ãªãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’å‰Šã£ãŸæ™‚ã®æ–¹ãŒã€æ™®é€šã®ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ã®æ™‚ã‚ˆã‚Šã‚‚ã€ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã®äºˆæ¸¬æ£ç”çŽ‡ã§ä¸Šå›žã£ã¦ã„ã¾ã™ã€‚ãã‚Œã ã‘ã€Œæ±ŽåŒ–æ€§èƒ½ã€ãŒæ”¹å–„ã—ãŸã¨ã„ã†ã“ã¨ãŒè¨€ãˆã‚‹ã‚ã‘ã§ã™ã€‚

ãã®ä»–ã®GLM

åŸºæœ¬çš„ã«ã¯Rã®glmé–¢æ•°ã®familyå¼•æ•°ã«å‡ºã¦ãã‚‹ã‚‚ã®ã‚’è¦šãˆã¦ãŠã‘ã°ã€å®Ÿç”¨ä¸Šã¯å•é¡Œã¯ãªã„ã‹ã¨æ€ã„ã¾ã™ã€‚ã‚ãˆã¦è¨€ãˆã°ä¾‹ãˆã°quasi-poissonã‚’ä½¿ã†ã¹ãã‹ã€glm.nbã‚’ä½¿ã†ã¹ãã‹ã¿ãŸã„ã«å¾®å¦™ãªã¨ã“ã‚ã§è¿·ã†ã‚±ãƒ¼ã‚¹ã¯ã‚ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ãŒã€ãã†ã„ã†æ™‚ã¯å€‹ã€…ã®ã‚±ãƒ¼ã‚¹ã”ã¨ã«ã¾ãŸæ”¹ã‚ã¦å‹‰å¼·ã™ã‚Œã°äº‹è¶³ã‚Šã‚‹ã‹ã¨ã€‚

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ

ã•ãã€ã“ã“ã‹ã‚‰ã¯ã‚¬ãƒƒãƒã‚¬ãƒã®æ©Ÿæ¢°å¦ç¿’ã®å‡ºç•ªã€‚ãƒˆãƒƒãƒ—ãƒãƒƒã‚¿ãƒ¼ã¯ã€å‰²ã¨è‰²ã€…ãªæ©Ÿæ¢°å¦ç¿’ãƒ™ãƒ¼ã‚¹ã®æœ¬ç•ªç’°å¢ƒã§ã‚‚å¤šç”¨ã•ã‚Œã¦ã„ã‚‹ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã€‚ä»Šã‚„baggingåž‹ã®ã‚¢ãƒ³ã‚µãƒ³ãƒ–ãƒ«å¦ç¿’ã®ä»£è¡¨æ ¼ã¨ã„ã†ã“ã¨ã§ã€ã‚ã¾ã‚Šã«ã‚‚å¤šãã®è¨€èªžã«ã‚ˆã£ã¦ãƒ©ã‚¤ãƒ–ãƒ©ãƒªå®Ÿè£…ãŒä½œã‚‰ã‚Œã€ä¸–ç•Œä¸ã§ä½¿ã‚ã‚Œã¦ã„ã¾ã™ã€‚ãã®ä¸èº«ã«ã¤ã„ã¦ã§ã™ãŒã€éŽåŽ»ã«è¨˜äº‹ã‚’æ›¸ã„ãŸã“ã¨ãŒã‚ã‚Šã¾ã™ã®ã§ã‚ˆã‚ã—ã‘ã‚Œã°ãã¡ã‚‰ã‚’ãŠèªã¿ãã ã•ã„ã€‚

ã¨ã„ã†ã“ã¨ã§ã€ã“ã‚Œã¾ãŸæ©Ÿæ¢°å¦ç¿’ã®ä¾‹é¡Œã§ã¯ãƒ‰å®šç•ªã®MNIST手書き文字認識データセットã‚’ä½¿ã£ã¦ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®æ€§èƒ½ã‚’è¦‹ã¦ã¿ã¾ã—ã‚‡ã†ã€‚ã‚ªãƒªã‚¸ãƒŠãƒ«ãƒ‡ãƒ¼ã‚¿ã¯éžå¸¸ã«é‡ã„ãŸã‚ã€ä»£ã‚ã‚Šã«å¦ç¿’ãƒ‡ãƒ¼ã‚¿5000è¡Œã€ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿1000è¡Œã«ãƒ€ã‚¦ãƒ³ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã—ãŸã‚·ãƒ§ãƒ¼ãƒˆãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚’åƒ•ã®GitHub ãƒªãƒã‚¸ãƒˆãƒªã«ç½®ã„ã¦ãŠãã¾ã—ãŸã®ã§ã€ãã¡ã‚‰ã‚’ä½¿ã„ã¾ã™ã€‚

> train<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_train.csv')
> test<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_test.csv')
> train$label<-as.factor(train$label)
> test$label<-as.factor(test$label)

> library(randomForest)
> train.rf<-randomForest(label~.,train)
> table(test$label,predict(train.rf,newdata=test[,-1]))
   
     0  1  2  3  4  5  6  7  8  9
  0 96  0  0  0  0  0  3  0  1  0
  1  0 99  0  0  0  0  0  0  1  0
  2  0  0 96  1  1  0  1  1  0  0
  3  0  0  2 87  0  4  1  1  3  2
  4  0  0  0  0 96  0  1  0  0  3
  5  1  2  0  1  0 94  2  0  0  0
  6  0  0  1  0  1  2 95  0  1  0
  7  0  2  0  0  1  0  0 93  0  4
  8  0  0  1  0  0  0  0  0 99  0
  9  0  0  0  0  2  1  0  1  0 96
> sum(diag(table(test$label,predict(train.rf,newdata=test[,-1]))))/nrow(test)
[1] 0.951 # 95.1%ã®æ£ç”çŽ‡

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã§ã¯95.1%ã®æ£ç”çŽ‡ã‚’é”æˆã™ã‚‹ã“ã¨ãŒã§ãã¾ã—ãŸã€‚ã¡ãªã¿ã«KaggleのMNISTã‚³ãƒ³ãƒšã§ã‚‚ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯ã¨ã—ã¦å…¨ãåŒã˜Rã®{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ç”¨ã„ãŸã‚³ãƒ¼ãƒ‰ä¾‹ãŒä¸Žãˆã‚‰ã‚Œã¦ã„ã¾ã™ã€‚

ãã†ãã†ã€èˆˆå‘³ã®ã‚ã‚‹æ–¹ã¯MNISTæ‰‹æ›¸ãæ–‡å—ã‚’æç”»ã™ã‚‹ã®ã‚‚è‰¯ã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚Rã§ã¯é¢å€’ã§ã™ãŒã“ã‚“ãªæ„Ÿã˜ã§ãƒ—ãƒãƒƒãƒˆã§ãã¾ã™ã€‚

> par(mfrow=c(3,4))
> for(i in 1:10){
+     image(t(apply(matrix(as.vector(as.matrix(train[(i-1)*500+50,-1])),ncol=28,nrow=28,byrow=T),2,rev)),col=grey(seq(0,1,length.out=256)))
+ }

çµæ§‹çš†ã•ã‚“å—ãŒæ±šã„ã‚ˆã†ã§ï¼ˆç¬‘ï¼‰ã€ä¸ã«ã¯ãƒ’ãƒˆã®ç›®ã§è¦‹ã¦ã‚‚åˆ¤åˆ¥ãŒã¤ã‹ãªã„ï¼ˆæŒ¯ã‚‰ã‚Œã¦ã„ã‚‹æ£è§£ãƒ©ãƒ™ãƒ«ã‚’è¦‹ã¦åˆã‚ã¦åˆ†ã‹ã‚‹ï¼‰ã¨ã„ã†ãƒ¬ãƒ™ãƒ«ã®æ±šã„å—ã‚‚ã‚ã£ãŸã‚Šã—ã¾ã™ã€‚ãã‚Œã§ã‚‚æ©Ÿæ¢°å¦ç¿’ã§åˆ†é¡žã—ã¦ã¿ã›ã‚‹ï¼ã¨ã„ã†ã®ãŒã“ã®MNISTã‚³ãƒ³ãƒšã®é†é†å‘³ãªã®ã ã¨ã‹ã€‚

Xgboostï¼ˆå‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨ï¼‰

ä¸€æ–¹ã§ã€è¿‘å¹´Kaggleã‚„KDD Cupãªã©ã®ã‚³ãƒ³ãƒšã§ã«ã‚ã‹ã«æ³¨ç›®ã‚’é›†ã‚ã¦ã„ã‚‹ã®ãŒxgboostã€‚ã“ã‚Œã¯å¾“æ¥ã‹ã‚‰çŸ¥ã‚‰ã‚Œã¦ã„ãŸå‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨(gradient boodted trees)ã‚’ã‚ˆã‚Šé«˜é€Ÿãªå®Ÿè£…ã«ã—ãŸãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã™ãŒã€ã‚ã¾ã‚Šã«ã‚‚å„ç¨®ã‚³ãƒ³ãƒšã§åœ§å€’çš„ãªãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã‚’å©ãå‡ºã™ãŸã‚çŒ›çƒˆãªå‹¢ã„ã§ä¸–ç•Œä¸ã«åºƒã¾ã‚Šã¤ã¤ã‚ã‚Šã¾ã™ã€‚ä½™è«‡ã§ã™ãŒã€ãŠã‹ã’ã•ã¾ã§è‹±èªžç‰ˆãƒ–ãƒã‚°ã®xgboostã®è¨˜äº‹ã¯è‹±èªžé™å®šã§'xgboost'ã§ã‚°ã‚°ã£ãŸæ™‚ã«ä¸Šã‹ã‚‰2ã€œ3ç•ªç›®ã«å‡ºã¦ãã¾ã™ï¼ˆç¬‘ï¼‰ã€‚ãªãŠã€ãã®ä¸èº«ã«ã¤ã„ã¦ã¯éŽåŽ»è¨˜äº‹ã§ä¸€åº¦è§£èª¬ã—ãŸã“ã¨ãŒã‚ã‚Šã¾ã™ã®ã§ã€ã‚ˆã‚ã—ã‘ã‚Œã°ãã¡ã‚‰ã‚’ã©ã†ãžã€‚

ã¨ã„ã†ã“ã¨ã§ã€ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®æ™‚ã¨åŒæ§˜ã«MNISTã®ã‚·ãƒ§ãƒ¼ãƒˆãƒãƒ¼ã‚¸ãƒ§ãƒ³ã§è©¦ã—ã¦ã¿ã¾ã™ã€‚ã¡ãªã¿ã«ä¸‹è¨˜ã®çµæžœã¯ãã‚Œç›¸å¿œã«ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã—ãŸå¾Œã®å¸°çµã§ã‚ã‚‹æ—¨æ‚ªã—ã‹ã‚‰ãšã”äº†æ‰¿ãã ã•ã„ï¼ˆç¬‘ï¼‰ã€‚

> train<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_train.csv')
> test<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_test.csv')

> library(xgboost)
> library(Matrix) # ãƒ‡ãƒ¼ã‚¿ã®å‰å‡¦ç†ã«å¿…è¦
> train.mx<-sparse.model.matrix(label~., train)
> test.mx<-sparse.model.matrix(label~., test)
# ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’xgboostã§æ‰±ãˆã‚‹å½¢å¼ã«ç›´ã™
> dtrain<-xgb.DMatrix(train.mx, label=train$label)
> dtest<-xgb.DMatrix(test.mx, label=test$label)
# è‰²ã€…ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãŒã‚ã‚‹ãŒxgboostã®GitHubãªã©ã‚’å‚ç…§ã®ã“ã¨
> train.gbdt<-xgb.train(params=list(objective="multi:softmax", num_class=10, eval_metric="mlogloss", eta=0.3, max_depth=5, subsample=1, colsample_bytree=0.5), data=dtrain, nrounds=70, watchlist=list(train=dtrain,test=dtest))
[0]	train-mlogloss:1.439942	test-mlogloss:1.488160
[1]	train-mlogloss:1.083675	test-mlogloss:1.177975
[2]	train-mlogloss:0.854107	test-mlogloss:0.977648
# ... omitted ...
[67]	train-mlogloss:0.004172	test-mlogloss:0.176068
[68]	train-mlogloss:0.004088	test-mlogloss:0.176044
[69]	train-mlogloss:0.004010	test-mlogloss:0.176004
> table(test$label,predict(train.gbdt,newdata=dtest))
   
     0  1  2  3  4  5  6  7  8  9
  0 95  0  0  1  0  0  3  0  1  0
  1  0 99  0  0  0  0  0  1  0  0
  2  0  0 96  2  0  0  1  1  0  0
  3  0  0  1 93  0  0  0  1  2  3
  4  0  0  1  1 95  0  1  0  0  2
  5  0  1  0  1  0 98  0  0  0  0
  6  0  0  1  0  1  2 95  0  1  0
  7  0  0  0  0  1  0  0 96  0  3
  8  0  4  1  0  1  0  0  0 93  1
  9  0  0  0  0  4  1  0  2  0 93
> sum(diag(table(test$label,predict(train.gbdt,newdata=dtest))))/nrow(test)
[1] 0.953 # æ£ç”çŽ‡95.3%

95.3%ã¨ã„ã†ã“ã¨ã§ã€xgboostã§ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã‚’ä¸Šå›žã‚‹ã“ã¨ãŒå‡ºæ¥ã¾ã—ãŸã€‚ãŸã ã—ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã‚ˆã‚Šã‚‚ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã«ä¾å˜ã™ã‚‹éƒ¨åˆ†ãŒçµæ§‹å¤§ãã„ã®ã§ã€æ€ã£ãŸã»ã©ç²¾åº¦ãŒå‡ºãªã„ã‚±ãƒ¼ã‚¹ã‚‚ã¾ã¾ã‚ã‚‹ç‚¹ã«ã¯æ³¨æ„ãŒå¿…è¦ã§ã™ã€‚ãƒ©ãƒ³ãƒ€ãƒ ã‚·ãƒ¼ãƒ‰ã«ä¾å˜ã™ã‚‹éƒ¨åˆ†ã‚‚ã‚ã‚Šã¾ã™*8ã€‚

Deep Learning

ä»Šã‚„ã€Œäººå·¥çŸ¥èƒ½ã€ã®ä»£åè©žã«ã‚‚ãªã‚Šã¤ã¤ã‚ã‚‹Deep Learningã€‚å½“åˆDeep Neural Network (DNN)ã ã‘ã ã£ãŸã‚‚ã®ãŒã€ç”»åƒèªè˜ã«é‡å®ã•ã‚Œã‚‹Convolutional Neural Network (CNN)ã€æ–‡ç« ã‚„éŸ³å£°ãªã©ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã«å¼·ã„Recurrent Neural Network (RNN)ãªã©ã©ã‚“ã©ã‚“ãã®æ´¾ç”Ÿå½¢ãŒåºƒã¾ã‚Šã¤ã¤ã‚ã‚Šã¾ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ç¾åœ¨ã®ã¨ã“ã‚åˆæœŸã®å®Ÿè£…ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã ã£ãŸTheano, PyLearn2ã«æ¯”ã¹ã¦Torch, Caffe, Chainerãã—ã¦TensorFlow, CNTKã¨éžå¸¸ã«å¤šå½©ãªå®Ÿè£…ãŒå„æ‰€ã‹ã‚‰æä¾›ã•ã‚Œã¦ã„ã‚‹ãŠã‹ã’ã§ï¼ˆç‰¹ã«ï¼‰C++, Pythonç’°å¢ƒã§ã‹ã¤GPUç’°å¢ƒãŒç”¨æ„ã§ãã‚Œã°ã‹ãªã‚ŠãŠæ‰‹è»½ã«Deep Learningã‚’å°Žå…¥ãƒ»å®Ÿè·µã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚ãã‚Œã‚‰ã®å®Ÿè£…ã«é–¢ã™ã‚‹è§£èª¬ã€ã•ã‚‰ã«ã¯ç†è«–ã«é–¢ã™ã‚‹è§£èª¬ã‚‚ã‚°ã‚°ã‚Œã°å±±ã»ã©å‡ºã¦ãã¾ã™ã®ã§ã€ã“ã®è¨˜äº‹ã§ã¯å‰²æ„›ã—ã¾ã™ã€‚2014年のJapan.Rで僕が話したDeep Learningに関する簡単なトークもあるã¨è¨€ãˆã°ã‚ã‚Šã¾ã™ãŒã€æ—¢ã«ç¾åœ¨ã®ãƒˆãƒ¬ãƒ³ãƒ‰ã‹ã‚‰ã ã„ã¶ç½®ãåŽ»ã‚Šã«ã•ã‚Œã¦ã„ã‚‹ã®ã§ã‚ãã¾ã§ã‚‚å‚è€ƒç¨‹åº¦ã«ã€‚ã€‚ã€‚

ãã—ã¦ä»Šå›žã¯ãƒ—ãƒä¸¦ã¿ã®å®Ÿè£…ã‚’è©¦ã™ã¨ã„ã†è¶£æ—¨ã§ã‚‚ãªã„ã®ã§ã€ç¾çŠ¶æœ€ã‚‚Rã‹ã‚‰ã®å®Ÿè¡ŒãŒç°¡å˜ãªH2Oã®Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸{h2o}ã‚’ç”¨ã„ãŸç°¡ä¾¿ãªDNNã®å®Ÿè·µä¾‹ã®ã¿ç´¹ä»‹ã—ã¾ã™ã€‚ã“ã¡ã‚‰ã‚‚MNISTã®ã‚·ãƒ§ãƒ¼ãƒˆãƒãƒ¼ã‚¸ãƒ§ãƒ³ã§ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

ï¼ˆâ€»ã©ã†ã‚„ã‚‰H2Oã®å®Ÿè£…å…¨ä½“ãŒæœ€è¿‘ã®ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã§ã‹ãªã‚Šã®æ”¹å¤‰ãŒã‚ã£ãŸã‚ˆã†ã§ã€ä»¥å‰ã®è¨˜äº‹ã®ã‚³ãƒ¼ãƒ‰ã§ã¯å‹•ã‹ãªã„ã‚ˆã†ã«ãªã£ã¦ã„ã¾ã™ã€‚ã“ã¡ã‚‰ãŒ2016å¹´3æœˆç¾åœ¨å‹•ãã‚³ãƒ¼ãƒ‰ã§ã™ã®ã§ã€ã¾ãšã¯ã“ã¡ã‚‰ã‚’ãŠè©¦ã—ãã ã•ã„ï¼‰

> train<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_train.csv')
> test<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_test.csv')
> train$label<-as.factor(train$label)
> test$label<-as.factor(test$label)

> library(h2o)
# Java VMã®ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹ã‚’ç«‹ã¦ã‚‹
> localH2O <- h2o.init(ip = "localhost", port = 54321, startH2O = TRUE, nthreads=3)
# ç¾è¡Œãƒãƒ¼ã‚¸ãƒ§ãƒ³ã§ã¯as.h2oé–¢æ•°ã§Rã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’ç›´æŽ¥èªã¿è¾¼ã‚ã‚‹
> trData<-as.h2o(train)
> tsData<-as.h2o(test)
# ä»¥ä¸‹æœ€é©åŒ–å‘¨ã‚Šã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æŒ‡å®šãŒå±±ã»ã©ä¸¦ã‚“ã§ã„ã‚‹ã®ã§ã€Deep Learningã®å°‚é–€æ›¸ãªã©ã‚’å‚ç…§ã®ã“ã¨
> res.dl <- h2o.deeplearning(x = 2:785, y = 1, training_frame = trData, activation = "RectifierWithDropout",hidden=c(1024,1024,2048),epochs = 300, adaptive_rate = FALSE, rate=0.01, rate_annealing = 1.0e-6,rate_decay = 1.0, momentum_start = 0.5,momentum_ramp = 5000*18, momentum_stable = 0.99, input_dropout_ratio = 0.2,l1 = 1.0e-5,l2 = 0.0,max_w2 = 15.0, initial_weight_distribution = "Normal",initial_weight_scale = 0.01,nesterov_accelerated_gradient = T, loss = "CrossEntropy", fast_mode = T, diagnostics = T, ignore_const_cols = T,force_load_balance = T)
> pred<-h2o.predict(res.dl,tsData[,-1])
> pred.df<-as.data.frame(pred)
> table(test$label,pred.df[,1])
   
      0   1   2   3   4   5   6   7   8   9
  0  96   0   1   0   0   0   2   1   0   0
  1   0 100   0   0   0   0   0   0   0   0
  2   0   0  97   0   2   0   0   1   0   0
  3   0   0   1  93   0   4   0   1   0   1
  4   0   2   1   0  93   0   0   1   1   2
  5   0   0   0   1   0  99   0   0   0   0
  6   1   0   0   0   0   2  97   0   0   0
  7   0   0   0   0   1   0   0  96   0   3
  8   0   0   1   1   1   2   0   0  95   0
  9   0   0   0   0   2   0   0   2   0  96
> sum(diag(table(test$label,pred.df[,1])))/nrow(test)
[1] 0.962 # æ£ç”çŽ‡96.2%

æµçŸ³ã«Deep Learningã¨ã„ã†ã‹DNNã®é¢ç›®ã‚’ä¿ã£ã¦ã€96.2%ã¨ãƒã‚¤ã‚¹ã‚³ã‚¢ã‚’å©ãå‡ºã—ã¾ã—ãŸ*9ã€‚ã¡ãªã¿ã«ã“ã®DNNã¯ä¸é–“å±¤ãŒ1024, 1024, 2048ãƒ¦ãƒ‹ãƒƒãƒˆã‹ã‚‰æˆã‚Šã€æ´»æ€§åŒ–é–¢æ•°ã¯'Rectifier'*10ã€ãã—ã¦dropout ratioã‚’æ£å‰‡åŒ–åŠ¹æžœæœ€å¤§ã®0.5ã«å›ºå®šã—ãŸ5å±¤ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã§ã™ã€‚

è¿½è¨˜ï¼šMXnetã®Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸{mxnet}ã‚’ç”¨ã„ãŸConvolutional Neural Networkã«ã‚ˆã‚‹ä¾‹

å¾Œã®è¨˜äº‹ã§å–ã‚Šä¸Šã’ãŸæ–¹æ³•ã«ã‚ˆã‚‹ã‚‚ã®ã§ã™ã€‚è©³ç´°ã¯ãã¡ã‚‰ã‚’ã”å‚ç…§ãã ã•ã„ã€‚

# Installation
> install.packages("drat", repos="https://cran.rstudio.com")
> drat:::addRepo("dmlc")
> install.packages("mxnet")
> library(mxnet)

# Data preparation
> train<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_train.csv')
> test<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/jp/mnist_reproduced/short_prac_test.csv')
> train<-data.matrix(train)
> test<-data.matrix(test)
> train.x<-train[,-1]
> train.y<-train[,1]
> train.x<-t(train.x/255)
> test_org<-test
> test<-test[,-1]
> test<-t(test/255)

> devices <- mx.cpu()
> mx.set.seed(0)

> data <- mx.symbol.Variable("data")
> # first conv
> conv1 <- mx.symbol.Convolution(data=data, kernel=c(5,5), num_filter=20)
> tanh1 <- mx.symbol.Activation(data=conv1, act_type="relu")
> pool1 <- mx.symbol.Pooling(data=tanh1, pool_type="max",
+                            kernel=c(2,2), stride=c(2,2))
> drop1 <- mx.symbol.Dropout(data=pool1,p=0.5)
> # second conv
> conv2 <- mx.symbol.Convolution(data=drop1, kernel=c(5,5), num_filter=50)
> tanh2 <- mx.symbol.Activation(data=conv2, act_type="relu")
> pool2 <- mx.symbol.Pooling(data=tanh2, pool_type="max",
+                            kernel=c(2,2), stride=c(2,2))
> drop2 <- mx.symbol.Dropout(data=pool2,p=0.5)
> # first fullc
> flatten <- mx.symbol.Flatten(data=drop2)
> fc1 <- mx.symbol.FullyConnected(data=flatten, num_hidden=500)
> tanh4 <- mx.symbol.Activation(data=fc1, act_type="relu")
> drop4 <- mx.symbol.Dropout(data=tanh4,p=0.5)
> # second fullc
> fc2 <- mx.symbol.FullyConnected(data=drop4, num_hidden=10)
> # loss
> lenet <- mx.symbol.SoftmaxOutput(data=fc2)
> train.array <- train.x
> dim(train.array) <- c(28, 28, 1, ncol(train.x))
> test.array <- test
> dim(test.array) <- c(28, 28, 1, ncol(test))
> mx.set.seed(0)
> tic <- proc.time()
> model <- mx.model.FeedForward.create(lenet, X=train.array, y=train.y,
+                                      ctx=devices, num.round=60, array.batch.size=100,
+                                      learning.rate=0.05, momentum=0.9, wd=0.00001,
+                                      eval.metric=mx.metric.accuracy,
+                                      epoch.end.callback=mx.callback.log.train.metric(100))
Start training with 1 devices
[1] Train-accuracy=0.0975510204081633
# omitted #
[60] Train-accuracy=0.9822
> print(proc.time() - tic)
   ãƒ¦ãƒ¼ã‚¶   ã‚·ã‚¹ãƒ†ãƒ        çµŒéŽ  
   784.666      3.767    677.921 
> preds <- predict(model, test.array, ctx=devices)
> pred.label <- max.col(t(preds)) - 1
> table(test_org[,1],pred.label)
   pred.label
      0   1   2   3   4   5   6   7   8   9
  0  99   0   0   0   0   0   1   0   0   0
  1   0  99   0   0   1   0   0   0   0   0
  2   0   0  98   0   0   0   0   1   1   0
  3   0   0   0  98   0   1   0   0   1   0
  4   0   2   0   0  97   0   1   0   0   0
  5   0   0   0   0   0  99   1   0   0   0
  6   0   0   0   0   0   0 100   0   0   0
  7   0   0   0   0   0   0   0  99   1   0
  8   0   0   0   0   0   0   0   0 100   0
  9   0   0   0   0   2   0   0   0   0  98
> sum(diag(table(test_org[,1],pred.label)))/1000
[1] 0.987 # æ£ç”çŽ‡98.7%

æ´»æ€§åŒ–é–¢æ•°ã«ReLUã‚’é¸æŠžã—ã€ç•³ã¿è¾¼ã¿å±¤ã‚’2å±¤ã€å…¨çµåˆå±¤ã‚’2å±¤ã€å‡ºåŠ›ã‚’softmaxé–¢æ•°ã«ã—ãŸã„ã‚ã‚†ã‚‹LeNetã§ã€98.7%ã¨ãŠãã‚‰ãã“ã®ã‚µãƒ³ãƒ—ãƒ«ã‚µã‚¤ã‚ºã§ã¯ã»ã¼é™ç•Œã«è¿‘ã„ç²¾åº¦ãŒå‡ºã¦ã„ã¾ã™ã€‚ã•ã™ãŒCNNã¨ã„ã£ãŸã¨ã“ã‚ã§ã—ã‚‡ã†ã‹ã€‚

MCMCã«ã‚ˆã‚‹ãƒ™ã‚¤ã‚¸ã‚¢ãƒ³ ãƒ¢ãƒ‡ãƒªãƒ³ã‚°

åƒ•ã‚‚åˆŠè¡Œå§”å“¡ã¨ã—ã¦å‚ç”»ã—ã¦ã„ã‚‹å²©æ³¢DSç¬¬1å·»ã§ã‚‚ç‰¹é›†ã•ã‚Œã¦ã„ã¾ã—ãŸãŒã€MCMCã‚’ç”¨ã„ãŸãƒ™ã‚¤ã‚¸ã‚¢ãƒ³ ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã¯é€šå¸¸ã®*11ç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ã€ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ã§ã¯æ¯ãŒç«‹ãŸãªã„ã‚ˆã†ãªè¤‡é›‘ãªãƒ¢ãƒ‡ãƒ«ã‚’æ‰±ã†ã®ã«é©ã—ã¦ã„ã¾ã™ã€‚

ã¨ã“ã‚ã§ã€ã‹ã¤ã¦ã¯BUGSã§ã®å®Ÿè·µãŒä¸€èˆ¬çš„ã§ã—ãŸãŒã€å®Ÿè¡Œé€Ÿåº¦ãŒæ¯”è¼ƒçš„é…ã„ã“ã¨ã€ãã—ã¦ä½•ã‚ˆã‚Šã‚‚ç¾åœ¨ã¯é–‹ç™ºãŒæ¢ã¾ã£ã¦ã„ã‚‹ãŸã‚ã«æœ€å…ˆç«¯ã®ç†è«–ã‚„å®Ÿè£…ãŒåæ˜ ã•ã‚Œãªã„ãªã©ã®å•é¡ŒãŒã‚ã‚Šã¾ã—ãŸã€‚ç¾åœ¨ã¯JAGSãã—ã¦Stanã¨ã„ã†é«˜é€Ÿãªå®Ÿè£…ãŒå®¹æ˜“ã«å…¥æ‰‹ã§ãã‚‹ãŸã‚ã€ã“ã¡ã‚‰ã‚’è–¦ã‚ã‚‰ã‚Œã‚‹ã“ã¨ã®æ–¹ãŒå¤šã„ã‚ˆã†ã§ã™ã€‚ã“ã®ãƒ–ãƒã‚°ã®éŽåŽ»ã®è¨˜äº‹ã§ã‚‚ã‚·ãƒªãƒ¼ã‚ºã¨ã—ã¦å–ã‚Šä¸Šã’ã¦ã„ã¾ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã“ã“ã§ã¯ç°¡å˜ãªStanã®å®Ÿè¡Œä¾‹ã‚’æŒ™ã’ã¦ãŠãã¾ã™ã€‚ä»¥å‰ã®è¨˜äº‹ã§ç”¨ã„ãŸã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’å°‘ã—æ”¹å¤‰ã—ãŸã‚‚ã®ã«å¯¾ã—ã¦ã€å£ç¯€èª¿æ•´ï¼‹äºŒéšŽå·®åˆ†ãƒˆãƒ¬ãƒ³ãƒ‰ãƒ¢ãƒ‡ãƒ«ã§ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æŽ¨å®šã‚’è¡Œã£ãŸä¸Šã§ã€ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°ã—ãŸçµæžœã‚’åˆã‚ã›ãŸã‚‚ã®ã§ã™ã€‚ã‚¤ãƒ¡ãƒ¼ã‚¸ã¨ã—ã¦ã¯ã€Œåºƒå‘Šã‚’3ç¨®é¡žæ¯Žæ—¥æŠ•ä¸‹é‡ã‚’å¤‰ãˆãªãŒã‚‰æŠ•ä¸‹ã—ã¦ã„ã£ãŸå ´åˆã®CVæ•°ã‚’ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã™ã‚‹ã€ã¨ã„ã†ã‚‚ã®ã§ã™ã€‚æ—¥æ¬¡ãƒ‡ãƒ¼ã‚¿ãªã®ã§ã€æ›œæ—¥å¤‰å‹•ã‚„åºƒå‘Šã¨ã¯ç„¡é–¢ä¿‚ãªã€Œã†ãã‚Šã€ã®ã‚ˆã†ãªã‚‚ã®ã‚’å«ã‚€ãƒ‡ãƒ¼ã‚¿ã§ã€ã“ã‚Œã‚’ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã™ã‚‹ã¨ã„ã†æŒ‰é…ã§ã™ã€‚ä»¥ä¸‹Stanã‚³ãƒ¼ãƒ‰ã€Rã‚³ãƒ¼ãƒ‰ã®é †ã«æŒ™ã’ã¦ã‚ã‚Šã¾ã™ã€‚

data {
	int<lower=0> N;
	real<lower=0> x1[N];
	real<lower=0> x2[N];
	real<lower=0> x3[N];
	real<lower=0> y[N];
}

parameters {
	real wk[N];
	real trend[N];
	real s_trend;
	real s_q;
	real s_wk;
	real<lower=0> a;
	real<lower=0> b;
	real<lower=0> c;
	real d;
}

model {
	real q[N];
	real cum_trend[N];
	for (i in 7:N)
		wk[i]~normal(-wk[i-1]-wk[i-2]-wk[i-3]-wk[i-4]-wk[i-5]-wk[i-6],s_wk); // å‘¨æœŸ7ã®å£ç¯€èª¿æ•´ï¼ˆæ›œæ—¥å¤‰å‹•ï¼‰
	
	for (i in 3:N)
		trend[i]~normal(2*trend[i-1]-trend[i-2],s_trend); // äºŒéšŽå·®åˆ†ãƒˆãƒ¬ãƒ³ãƒ‰

	cum_trend[1]<-trend[1];
	for (i in 2:N)
		cum_trend[i]<-cum_trend[i-1]+trend[i];

	for (i in 1:N)
		q[i]<-y[i]-wk[i]-cum_trend[i]; // ç›®çš„å¤‰æ•°ã‚’å›žå¸°éƒ¨åˆ†ã€å£ç¯€èª¿æ•´ã€ãƒˆãƒ¬ãƒ³ãƒ‰ã«åˆ†è§£ã™ã‚‹
	for (i in 1:N)
		q[i]~normal(a*x1[i]+b*x2[i]+c*x3[i]+d,s_q); // å›žå¸°éƒ¨åˆ†ã®ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°
}

> d<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/DM_sampledata/example_bayesian_modeling.csv')
> dat<-list(N=nrow(d),y=d$cv,x1=d$ad1,x2=d$ad2,x3=d$ad3)
> library(rstan)
# ä¸¦åˆ—åŒ–ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’å…¥ã‚Œã‚‹
> rstan_options(auto_write = TRUE)
> options(mc.cores = parallel::detectCores())
> fit<-stan(file='https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/DM_sampledata/hb_trend_cum_wk.stan',data=dat,iter=1000,chains=4)
starting worker pid=4813 on localhost:11406 at 00:03:29.822
starting worker pid=4821 on localhost:11406 at 00:03:30.007
starting worker pid=4829 on localhost:11406 at 00:03:30.188
starting worker pid=4837 on localhost:11406 at 00:03:30.370

SAMPLING FOR MODEL 'hb_trend_cum_wk' NOW (CHAIN 1).

Chain 1, Iteration:   1 / 1000 [  0%]  (Warmup)
SAMPLING FOR MODEL 'hb_trend_cum_wk' NOW (CHAIN 2).

Chain 2, Iteration:   1 / 1000 [  0%]  (Warmup)
SAMPLING FOR MODEL 'hb_trend_cum_wk' NOW (CHAIN 3).

Chain 3, Iteration:   1 / 1000 [  0%]  (Warmup)
SAMPLING FOR MODEL 'hb_trend_cum_wk' NOW (CHAIN 4).

Chain 4, Iteration:   1 / 1000 [  0%]  (Warmup)

# ... ä¸ç•¥ ... #

Chain 3, Iteration: 1000 / 1000 [100%]  (Sampling)# 
#  Elapsed Time: 34.838 seconds (Warm-up)
#                16.5852 seconds (Sampling)
#                51.4232 seconds (Total)
# 

Chain 4, Iteration: 1000 / 1000 [100%]  (Sampling)# 
#  Elapsed Time: 42.5642 seconds (Warm-up)
#                46.8373 seconds (Sampling)
#                89.4015 seconds (Total)
# 

Chain 2, Iteration: 1000 / 1000 [100%]  (Sampling)# 
#  Elapsed Time: 47.8614 seconds (Warm-up)
#                44.052 seconds (Sampling)
#                91.9134 seconds (Total)
# 

Chain 1, Iteration: 1000 / 1000 [100%]  (Sampling)# 
#  Elapsed Time: 41.7805 seconds (Warm-up)
#                50.8883 seconds (Sampling)
#                92.6688 seconds (Total)
# 

# ä»¥ä¸‹äº‹å¾Œåˆ†å¸ƒã®æœ€é »å€¤ã‚’ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æŽ¨å®šçµæžœã¨ã—ã¦å–ã‚Šå‡ºã™ãƒ—ãƒã‚»ã‚¹
> fit.smp<-extract(fit)
> dens_a<-density(fit.smp$a)
> dens_b<-density(fit.smp$b)
> dens_c<-density(fit.smp$c)
> dens_d<-density(fit.smp$d)
> a_est<-dens_a$x[dens_a$y==max(dens_a$y)]
> b_est<-dens_b$x[dens_b$y==max(dens_b$y)]
> c_est<-dens_c$x[dens_c$y==max(dens_c$y)]
> d_est<-dens_d$x[dens_d$y==max(dens_d$y)]
> trend_est<-rep(0,100)
> for (i in 1:100) {
+ tmp<-density(fit.smp$trend[,i])
+ trend_est[i]<-tmp$x[tmp$y==max(tmp$y)]
+ }
> week_est<-rep(0,100)
> for (i in 1:100) {
+ tmp<-density(fit.smp$wk[,i])
+ week_est[i]<-tmp$x[tmp$y==max(tmp$y)]
+ }
> pred<-a_est*d$ad1+b_est*d$ad2+c_est*d$ad3+d_est+cumsum(trend_est)+week_est
> matplot(cbind(d$cv,pred,d_est+cumsum(trend_est)),type='l',lty=1,lwd=c(2,3,2),col=c('black','red','#008000'),ylab="CV")
> legend("topleft",c("Data","Predicted","Trend"),col=c('black','red','#008000'),lty=c(1,1),lwd=c(2,3,2),cex=1.2)

ã•ã™ãŒã«å®Œç’§ã«ã¯ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°å‡ºæ¥ã¦ã„ã¾ã›ã‚“ãŒã€ä½•ã®äº‹å‰çŸ¥è˜ã‚‚ãªããŸã å£ç¯€èª¿æ•´ï¼‹äºŒéšŽå·®åˆ†ãƒˆãƒ¬ãƒ³ãƒ‰ã®é …ã‚’Stanã‚³ãƒ¼ãƒ‰ä¸Šã§ç››ã‚Šè¾¼ã‚“ã§ãŸã ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã—ã¦ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æŽ¨å®šã—ãŸã ã‘ã®çµæžœã¨ã—ã¦ã¯ä¸Šå‡ºæ¥ã ã¨æ€ã„ã¾ã™ã€‚

è¿½è¨˜ï¼šãƒ™ã‚¯ãƒˆãƒ«åŒ–ã—ãŸStanã‚¹ã‚¯ãƒªãƒ—ãƒˆã®ä¾‹

ä¸Šè¨˜ã®ã‚„ã‚Šæ–¹ã ã¨ã¾ã ã‚‹ã£ã“ã—ã„ã®ã§ã€ã“ã‚“ãªæ„Ÿã˜ã«ã™ã‚‹ã¨ã‚‚ã†å°‘ã—ã‚·ãƒ³ãƒ—ãƒ«ã«ãªã‚‹ä¸Šã«åˆ—æ•°ãŒå¤‰ã‚ã£ã¦ã‚‚èžé€šãŒåˆ©ãã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚å‚™å¿˜éŒ²çš„ã«ã€‚

data {
	int<lower=0> N;
	int<lower=0> M;
	matrix[N, M] X;
	real y[N];
}

parameters {
	real trend[N];
	real season[N];
	real s_trend;
	real s_q;
	real s_season;
	vector<lower=0>[M] beta;
	real d;
}

model {
	real q[N];
	real cum_trend[N];
	for (i in 7:N) {
		season[i]~normal(-season[i-1]-season[i-2]-season[i-3]-season[i-4]-season[i-5]-season[i-6],s_season);
	}
	for (i in 3:N)
		trend[i]~normal(2*trend[i-1]-trend[i-2],s_trend);
	cum_trend[1]<-trend[1];
	for (i in 2:N)
		cum_trend[i]<-cum_trend[i-1]+trend[i];

	for (i in 1:N)
		q[i]<-y[i]-cum_trend[i]-season[i];
	for (i in 1:N)
		q[i]~normal(dot_product(X[i], beta)+d,s_q);
}

ã“ã®Stanã‚¹ã‚¯ãƒªãƒ—ãƒˆã‚’'v2.stan'ã¨ã„ã†åå‰ã§ä¿å˜ã—ãŸä¸Šã§ã€ä»¥ä¸‹ã®ã‚ˆã†ã«kickã—ã¾ã™ã€‚

> d<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/DM_sampledata/example_bayesian_modeling.csv')
> dy<-d$cv
> dvar<-d[,-1]
> d.dat<-list(N=nrow(dvar), M=ncol(dvar), X=dvar, y=dy)

> library(rstan)
# ä¸¦åˆ—åŒ–ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’å…¥ã‚Œã‚‹
> rstan_options(auto_write = TRUE)
> options(mc.cores = parallel::detectCores())

> fit <- stan(file='v2.stan', data=d.dat, iter=1000, chains=4)

> fit.smp<-extract(fit)
> t_d<-density(fit.smp$d)
> d_est<-t_d$x[t_d$y==max(t_d$y)]
> beta<-rep(0,ncol(dvar))
> for (i in 1:ncol(dvar)) {
> tmp<-density(fit.smp$beta[(2000*(i-1)+1):(2000*i)])
> beta[i]<-tmp$x[tmp$y==max(tmp$y)]
> }
> trend<-rep(0,nrow(dvar))
> for (i in 1:nrow(dvar)) {
> tmp<-density(fit.smp$trend[,i])
> trend[i]<-tmp$x[tmp$y==max(tmp$y)]
> }
> season<-rep(0,nrow(dvar))
> for (i in 1:nrow(dvar)) {
> tmp<-density(fit.smp$season[,i])
> season[i]<-tmp$x[tmp$y==max(tmp$y)]
> }
> beta_prod<-rep(0,nrow(dvar))
> for (i in 1:ncol(dvar)){beta_prod<-beta_prod + dvar[,i]*beta[i]}
> pred <- d_est + beta_prod + cumsum(trend) + season

> matplot(cbind(dy,pred,d_est+cumsum(trend)),type='l',lty=1,lwd=c(2,3,2),col=c('black','red','#008000'),ylab="CV")
> legend("topleft",c("Data","Predicted","Trend"),col=c('black','red','#008000'),lty=c(1,1),lwd=c(2,3,2),cex=1.2)

ã“ã‚Œãªã‚‰è¡Œæ•°ãƒ»åˆ—æ•°ãŒå¤‰ã‚ã£ã¦ã‚‚ãã®ã¾ã¾å›žã›ã¾ã™ã—ã€ä½•ã‚ˆã‚Šã‚‚Stanæ¼”ç®—è‡ªä½“ãŒé€Ÿããªã‚Šã¾ã™ã€‚

word2vec

2013å¹´ä»¥é™è‡ªç„¶è¨€èªžå‡¦ç†ã®åˆ†é‡Žã«åºƒã¾ã£ãŸã®ãŒword2vecã€‚ãã®åã®é€šã‚Šã€Œå˜èªžã‚’æ•°å€¤ã§è¡¨ã›ã‚‹ãƒ™ã‚¯ãƒˆãƒ«ã«è¡¨ç¾ã—ç›´ã™ã“ã¨ã§ã€Žä¼¼ã¦ã„ã‚‹å˜èªžã®ãƒªã‚¹ãƒˆã‚¢ãƒƒãƒ—ã€ã‚„ã€Žå˜èªžã®æ„å‘³ã®è¶³ã—å¼•ãã€ã‚’å‡ºæ¥ã‚‹ã‚ˆã†ã«ã™ã‚‹ã€æ‰‹æ³•ã§ã™ã€‚ãã‚Œã‚†ãˆã€æ§˜ã€…ãªè‡ªç„¶è¨€èªžå‡¦ç†ãƒ‡ãƒ¼ã‚¿ã®å‰å‡¦ç†ã‚„ç‰¹å¾´é‡ä½œæˆã«ç”¨ã„ã‚‰ã‚Œã‚‹ã“ã¨ãŒå¤šã„æ§˜ã§ã™ã€‚ä»¥å‰ã“ã®ãƒ–ãƒã‚°ã§ã‚‚ç°¡å˜ã«å–ã‚Šä¸Šã’ãŸã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã€ã“ã“ã§ã‚‚ç°¡å˜ã«è©¦ã—ã¦ã¿ã¾ã—ã‚‡ã†ã€‚ã¨ã‚Šã‚ãˆãšç‰©å‡„ãæ‰‹ã£å–ã‚Šæ—©ã„ä¾‹ã¨ã—ã¦ã€ã“ã®ãƒ–ãƒã‚°ã§ã¯ã¦ãƒ–500ä»¥ä¸Šã‚’å–ã£ãŸè¨˜äº‹ã®ä¸ã‹ã‚‰ä¸Žå¤ªè©±ç³»ã®ã‚‚ã®ã‚’é›†ã‚ã¦ãã¦ï¼ˆç¬‘ï¼‰ã€ã¾ã¨ã‚ãŸã‚‚ã®ã‚’GitHub ãƒªãƒã‚¸ãƒˆãƒªã«ç½®ã„ã¦ãŠãã¾ã—ãŸã®ã§ã€ã“ã‚Œã‚’ãƒãƒ¼ã‚«ãƒ«ã«DLã—ã¦ãã¦ãã ã•ã„ã€‚ãã®ä¸Šã§MeCabã§åˆ†ã‹ã¡æ›¸ãã‚’ã—ãŸä¸Šã§ã€word2vecã«ã‹ã‘ã¦ã„ãã¾ã™ã€‚ãªãŠword2vecã®å®Ÿè£…ã¨ã—ã¦ã¯ã€Pythonä¸Šã§easy_installã§ç°¡å˜ã«ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã§ãã‚‹gensimã‹ã‚‰åˆ©ç”¨ã™ã‚‹ã®ãŒä»Šã®ã¨ã“ã‚æœ€ã‚‚ç°¡å˜ãªã®ã§ã“ã¡ã‚‰ã‚’ä½¿ã„ã¾ã™ã€‚ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«æ–¹æ³•ãªã©ã¯ä¸Šè¨˜ãƒ–ãƒã‚°è¨˜äº‹ã‚’ã”å‚ç…§ã‚ã‚Œã€‚

ã¾ãšã¯MeCabã§åˆ†ã‹ã¡æ›¸ãã€‚

$ mecab -Owakati tjo_stories.txt -o tjo_stories_token.txt

ãã®ä¸Šã§Pythonã§ä»¥ä¸‹ã®ã‚ˆã†ã«å®Ÿè¡Œã—ã¾ã™ã€‚

from gensim.models import word2vec

data = word2vec.Text8Corpus('tjo_stories_token.txt')
model = word2vec.Word2Vec(data, size = 100)

out = model.most_similar(positive=[u'çµ±è¨ˆ', u'å¦'])
for x in out:
    print x[0], x[1]
åŸºç¤Ž 0.987444281578
åˆ†æž 0.98454105854
äºº 0.982671976089
æ€ã„ 0.982490897179
æ¤œå®š 0.982355296612
ã‚ã£ 0.982218146324
ãã†ã„ã† 0.981627583504
è¨€ãˆ 0.981441140175
å‹‰å¼· 0.981229901314
ä¸€æ–¹ 0.980490446091

out = model.most_similar(positive=[u'æ©Ÿæ¢°',u'å¦ç¿’'])
for x in out:
    print x[0], x[1]
ã¨ 0.950019478798
ã‹ 0.946986079216
ã‚ã‚‹ç¨‹åº¦ 0.940009057522
å ´åˆ 0.939836621284
å¦ 0.933527469635
çš„ 0.928611636162
ç†è§£ 0.925901889801
åˆ†æž 0.923837661743
ã›ã‚ˆ 0.922927498817
ã§ã‚‚ 0.922164022923

out = model.most_similar(positive=[u'çµ±è¨ˆ'], negative = [u'ãƒ‡ãƒ¼ã‚¿'])
for x in out:
    print x[0], x[1]
ã‚“ 0.924124836922
ã 0.907221496105
ç‰¹ã« 0.900418162346
ã“ã‚Œ 0.896694540977
ã§ã™ 0.89433068037
ã¾ã§ 0.893202722073
ãªã„ 0.887368142605
ã‚ã‘ 0.88346517086
ã¾ã› 0.877071022987
å¯èƒ½ 0.875332713127

ã€Œçµ±è¨ˆ-å¦ã€ã¯ã€ŒåŸºç¤Žãƒ»åˆ†æžãƒ»æ¤œå®šã€ã¨ã®é–¢é€£ãŒå¼·ãã€ã€Œæ©Ÿæ¢°-å¦ç¿’ã€ã¯ã€Œã‚ã‚‹ç¨‹åº¦ãƒ»ç†è§£ã€ã¨ã®é–¢é€£ãŒå¼·ãã€ã€Œçµ±è¨ˆã€ã‹ã‚‰ã€Œãƒ‡ãƒ¼ã‚¿ã€ã‚’å·®ã—å¼•ãã¨è¨³ãŒåˆ†ã‹ã‚‰ãªã„æ„Ÿã˜ã§ã™ï¼ˆæ±—ï¼‰ã€‚ã‚„ã£ã±ã‚Šã“ã®ç¨‹åº¦ã ã¨ãƒ‡ãƒ¼ã‚¿é‡ãŒå°‘ãªéŽãŽã‚‹ã‚“ã§ã™ã‹ãã€‚ã€‚ã€‚ä»¥å‰ã®ãƒ–ãƒã‚°è¨˜äº‹ã®é’ç©ºæ–‡åº«ãƒ‡ãƒ¼ã‚¿ã®ä¾‹ã®æ–¹ãŒã¾ã ã¾ã¨ã‚‚ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ãã€‚

K-meansã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

æ•™å¸«ãªã—å¦ç¿’ã®ä»£è¡¨æ ¼ã¨ã‚‚è¨€ãˆã‚‹ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã€‚æ‰‹æ³•è‡ªä½“ã¯æŒ™ã’ã¦ã„ãã¨ã‚ãƒªãŒãªãã€ã¾ãŸæ§˜ã€…ãªè¨€èªžã«ã‚ˆã‚‹ãƒ©ã‚¤ãƒ–ãƒ©ãƒªå®Ÿè£…ã‚‚å¤šã„ã®ã§ä½•ã‚’å–ã‚Šä¸Šã’ã¦ã‚‚è‰¯ã„ã®ã§ã™ãŒã€ã“ã“ã§ã¯æœ€ã‚‚ä¸€èˆ¬çš„ã‹ã¤ç°¡ä¾¿ã¨æ€ã‚ã‚Œã‚‹K-meansã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã‚’å–ã‚Šä¸Šã’ã¾ã™*12ã€‚ã“ã‚Œã‚‚ä»¥å‰ã®è¨˜äº‹ã§å–ã‚Šä¸Šã’ãŸã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚

æ–¹æ³•è«–ã®è©³ç´°ã¯å‰²æ„›ã—ã¾ã™ãŒã€è¦ã¯ã€Œäº‹å‰ã«å®šã‚ãŸkå€‹ã®ã‚¯ãƒ©ã‚¹ã‚¿ã«ãƒ‡ãƒ¼ã‚¿è‡ªä½“ã®æ€§è³ªã«åŸºã¥ã„ã¦æŒ¯ã‚Šåˆ†ã‘ã‚‹ã€æ‰‹æ³•ã§ã™ã€‚ä¾‹ãˆã°æ‹™è‘—5ç« ã®å•†å“è³¼è²·ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ç”¨ã„ã‚‹ã¨ã“ã‚“ãªæ„Ÿã˜ã«å®Ÿè·µã§ãã¾ã™ã€‚

> d<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/DM_sampledata/ch5_3.txt',header=T,sep=' ')
> d.km<-kmeans(d,centers=3)
> d1<-cbind(d,d.km$cluster)
> names(d1)[6]<-'cluster'
> res<-with(d1,aggregate(d1[,-6],list(cluster=cluster),mean)) # ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°çµæžœã‚’ã¾ã¨ã‚ã‚‹
> res
  cluster     books   cloths cosmetics    foods  liquors
1       1  9.047619 13.57143  5.285714 4.333333 7.571429
2       2 46.060606 11.36364  4.575758 5.090909 5.242424
3       3 28.739130 10.28261  4.478261 5.043478 6.043478
> barplot(as.matrix(res[order(res$books),-6]),col=rainbow(5))

ç‰©å‡„ãé©å½“ãªå¯è¦–åŒ–ãªã‚“ã§ã™ãŒã€4ã¤ã®è‰²ã«åˆ†ã‹ã‚ŒãŸ3ã¤ã®ã‚¯ãƒ©ã‚¹ã‚¿ãŒãã‚Œãžã‚Œã©ã‚Œãã‚‰ã„5ã‚«ãƒ†ã‚´ãƒªãã‚Œãžã‚Œã®å•†å“ã‚’å«ã‚“ã§ã„ã‚‹ã‹ãŒè¦‹ã¦å–ã‚Œã‚‹ã‹ã¨æ€ã„ã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ã€ã‚‚ã£ã¨è¤‡é›‘ãªãƒ‡ãƒ¼ã‚¿ã§ã‚ã‚Œã°ã•ã‚‰ã«ç´°ã‹ã„ç‰¹å¾´ã‚’æŒã¤ã‚¯ãƒ©ã‚¹ã‚¿åŒå£«ã«åˆ†ã‘ã‚‹ã“ã¨ã‚‚å‡ºæ¥ã¾ã™ã€‚

ã¡ãªã¿ã«ã€å®Ÿå‹™ã§ç”¨ã„ã‚‹å ´åˆã®ã‚„ã‚Šæ–¹ã¨ã—ã¦ã¯ã€ã€Œã¾ãšK-meansã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã§ãƒ¦ãƒ¼ã‚¶ãƒ¼ã‚’é©å½“ãªæ•°ã®ã‚¯ãƒ©ã‚¹ã‚¿ã«æŒ¯ã‚Šåˆ†ã‘ã€ã¦ãŠã„ã¦ã‹ã‚‰ã€ã€Œãã®ã‚¯ãƒ©ã‚¹ã‚¿ã‚’å¦ç¿’ãƒ©ãƒ™ãƒ«ã¨ã—ã¦æ©Ÿæ¢°å¦ç¿’åˆ†é¡žå™¨ã‚’æŽ¨å®šã—ã€ãã®åˆ†é¡žå™¨ã‚’ç”¨ã„ã¦æ–°è¦ãƒ¦ãƒ¼ã‚¶ãƒ¼ã‚’å€‹ã€…ã®ã‚¯ãƒ©ã‚¹ã‚¿ã«åˆ†ã‘ã€ã¦ã„ãã€ã¨ã„ã†äºŒæ®µæ§‹ãˆã®æ–¹æ³•è«–ãŒã‚ã£ãŸã‚Šã—ã¾ã™ã€‚ãƒ‰ãƒ¡ã‚¤ãƒ³çŸ¥è˜ã§ã¯ãƒ¦ãƒ¼ã‚¶ãƒ¼ãªã‚Šãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆãªã‚Šã®åˆ†é¡žãŒã§ããªã„ã‚±ãƒ¼ã‚¹ã§ã¯æœ‰ç”¨ãªæ–¹æ³•ã§ã™ã€‚

ã‚°ãƒ©ãƒ•ç†è«–ãƒ»ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯åˆ†æž

ã“ã¡ã‚‰ãªã‚“ã§ã™ãŒã€æœ€è¿‘ã«ãªã£ã¦æ§˜ã€…ãªæ¥ç•Œãƒ»é ˜åŸŸã«ã‚¨ãƒƒã‚¸ãƒªã‚¹ãƒˆåŠã³ãƒžãƒ«ã‚³ãƒ•é€£éŽ–ã§è¡¨ç¾å¯èƒ½ãªãƒ‡ãƒ¼ã‚¿ãŒæ•°å¤šãã‚ã‚‹ã“ã¨ãŒåˆ†ã‹ã£ã¦ããŸãŸã‚ã€å€‹äººçš„ã«ã‚‚çµæ§‹ç¿’å¾—ã«åŠ›ã‚’å…¥ã‚Œã¦ã„ã‚‹æ‰‹æ³•ã§ã‚‚ã‚ã‚Šã¾ã™ã€‚æ˜¨å¹´æœ«ã«ã‚·ãƒªãƒ¼ã‚ºè¨˜äº‹ã‚’æ›¸ã„ãŸã®ã§ã€æ‰‹æ³•ã®è©³ç´°ã¯å‰²æ„›ã¨ã„ã†ã“ã¨ã§ã€‚

ãƒ€ã‚¤ã‚¸ã‚§ã‚¹ãƒˆç‰ˆã¨ã—ã¦ã€æœ‰åãª"Karate"ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ *13ã«å¯¾ã—ã¦å®šç•ªã¨æ€ã‚ã‚Œã‚‹ã‚°ãƒ©ãƒ•ç†è«–ãƒ»ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯åˆ†æžæ‰‹æ³•ã‚’å¹¾ã¤ã‹ã«é™ã£ã¦é©ç”¨ã—ã¦ã¿ã¾ã™ã€‚ã‚„ã£ã¦ã„ã‚‹ã“ã¨ã¯ã‚·ãƒ³ãƒ—ãƒ«ã§ã€{igraph}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã¯åª’ä»‹ä¸å¿ƒæ€§ã‚’ç®—å‡ºã—ã¦ã€Œã©ã®äººç‰©ãŒã©ã‚Œãã‚‰ã„ãƒãƒ–çš„ãªå½¹å‰²ã‚’æžœãŸã—ã¦ã„ã‚‹ã‹ï¼ˆäººé–“é–¢ä¿‚ã®è¦è¡ã«ãªã£ã¦ã„ã‚‹ã‹ï¼‰ã€ã‚’å®šé‡åŒ–ã—ãŸä¸Šã§Fruchterman-Reingoldã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§é–¢é€£ã®å¼·ã„äººç‰©åŒå£«ãŒè¿‘ãã«é…ç½®ã•ã‚Œã‚‹ã‚ˆã†ã«æç”»ã—ã€{linkcomm}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã¯1äººãŒè¤‡æ•°ã®ã‚³ãƒŸãƒ¥ãƒ‹ãƒ†ã‚£ï¼ˆå‹äººã‚°ãƒ«ãƒ¼ãƒ—ï¼‰ã«å±žã™ã‚‹ã¨ä»®å®šã—ãŸå ´åˆã®ã‚³ãƒŸãƒ¥ãƒ‹ãƒ†ã‚£ã®å‰²ã‚Šå½“ã¦ã‚’æŽ¨å®šã—ã€åŒæ§˜ã«æç”»ã—ã¦ã„ã¾ã™ã€‚

> library(igraph)
> library(linkcomm)
> g<-graph.edgelist(as.matrix(karate),directed=F)
> g
IGRAPH U--- 34 78 -- 
+ edges:
 [1]  1-- 2  1-- 3  2-- 3  1-- 4  2-- 4  3-- 4  1-- 5  1-- 6  1-- 7  5-- 7  6-- 7  1-- 8  2-- 8  3-- 8  4-- 8
[16]  1-- 9  3-- 9  3--10  1--11  5--11  6--11  1--12  1--13  4--13  1--14  2--14  3--14  4--14  6--17  7--17
[31]  1--18  2--18  1--20  2--20  1--22  2--22 24--26 25--26  3--28 24--28 25--28  3--29 24--30 27--30  2--31
[46]  9--31  1--32 25--32 26--32 29--32  3--33  9--33 15--33 16--33 19--33 21--33 23--33 24--33 30--33 31--33
[61] 32--33  9--34 10--34 14--34 15--34 16--34 19--34 20--34 21--34 23--34 24--34 27--34 28--34 29--34 30--34
[76] 31--34 32--34 33--34
> g.bw<-betweenness(g) # åª’ä»‹ä¸å¿ƒæ€§ã‚’è¨ˆç®—ã™ã‚‹
> g.ocg<-getOCG.clusters(karate) # OCGã‚¯ãƒ©ã‚¹ã‚¿ã‚’æŽ¨å®šã™ã‚‹
> par(mfrow=c(1,2))
> plot(g,vertex.size=g.bw/10,layout=layout.fruchterman.reingold)
> plot(g.ocg,type='graph',layout=layout.fruchterman.reingold)

1ç•ªã¨34ç•ªãŒãã‚Œãžã‚Œ2ã¤ã®å¤§ããªã‚°ãƒ«ãƒ¼ãƒ—ã®ã€Œè¦ªåˆ†ã€æ ¼ã§ã‚ã‚‹ã¨åŒæ™‚ã«ã€33ç•ªãŒ34ç•ªã®å¿ å®Ÿãªç‰‡è…•ã€ãã—ã¦3ç•ªã¨32ç•ªãŒå¤§ããªã‚°ãƒ«ãƒ¼ãƒ—åŒå£«ã‚’å–ã‚ŠæŒã¤ã€Œä»²ä»‹å½¹ã€ã®ç«‹ã¡ä½ç½®ã«ã‚ã‚‹ã“ã¨ãŒçªºãˆã¾ã™ã€‚

ãã®ä»–ã®æœ‰ç”¨ãªæ‰‹æ³•ãŸã¡

ã“ã“ã ã‘åˆ†ã‘ã¦ã‚ã‚‹ã®ã¯ã€å…ˆè¿°ã®é€šã‚Šæ¥ç•Œå…¨ä½“ã¨ã—ã¦ã¯åºƒãä½¿ã‚ã‚Œã¦ã„ã‚‹ã‚‚ã®ã®åƒ•è‡ªèº«ãŒè‡ªåˆ†ã®æ‰‹ã‚’å‹•ã‹ã—ã¦å®Ÿè·µã—ãŸã“ã¨ãŒã¾ã ãªã„æ‰‹æ³•2ç¨®ã§ã™ã€‚ã¨ã„ã†ã“ã¨ã§ã€ä¸Šã®10æ‰‹æ³•ã»ã©å®Ÿè·µçš„ã§ã¯ãªã„ï¼ˆï¼ãƒãƒ¥ãƒ¼ãƒˆãƒªã‚¢ãƒ«ã‚’ãªãžã‚‹ã ã‘ã«è¿‘ã„ï¼‰èª¬æ˜Žã«ã—ã‹ãªã£ã¦ã„ãªã„ã®ã§ã€æ‚ªã—ã‹ã‚‰ãšã”äº†æ‰¿ã‚ã‚Œã€‚

LDAåŠã³ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«

ä»¥å‰ã®ç¾å ´ã§ã¯æ–°å’ã®åãŸã¡ã«ã‚„ã£ã¦ã‚‚ã‚‰ã£ã¦ã„ãŸã¨ã„ã†äº‹æƒ…ã‚‚ã‚ã£ã¦ã€å€‹äººçš„ã«ã¯è‡ªåˆ†ã§ã¯å®Ÿè·µã—ã¦ã„ãªã„å‰²ã«ã‹ãªã‚Šé¦´æŸ“ã¿æ·±ã„æ‰‹æ³•ã®ä¸€ã¤ãŒLDA (Latent Dirichlet Allocation)ã€‚ã„ã‚ã‚†ã‚‹ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«ã®ä»£è¡¨çš„ãªæ‰‹æ³•ã§ã™ã€‚ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«ã¨ã¯å¤§é›‘æŠŠã«æ›¸ãã¨ã€Œãã‚Œãžã‚Œã®ã€Žãƒˆãƒ”ãƒƒã‚¯ã€ã«åˆ†ã‘ã‚‰ã‚Œã‚‹ã‚ˆã†ãªæ–‡ç« ã«ã©ã®ã‚ˆã†ãªå˜èªžãŒã©ã‚Œãã‚‰ã„å‡ºç¾ã™ã‚‹ã‹ã¨ã„ã†ç¢ºçŽ‡ã‚’è¡¨ã™ãƒ¢ãƒ‡ãƒ«ã€ã§ã€ä¾‹ãˆã°æ–‡æ›¸ã®åˆ†é¡žã«å¤šãç”¨ã„ã‚‰ã‚Œã¾ã™ã€‚ã¾ãŸå˜èªžã®ä»£ã‚ã‚Šã«ä½•ã‹åˆ¥ã®ã‚‚ã®ã‚’ãƒ‡ãƒ¼ã‚¿ã¨ã—ã¦ã‚‚è‰¯ãã€æ¥ç•Œå†…ã§ã¯æ™‚ã€…ã€Œãã‚“ãªã‚‚ã®ã«ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«ä½¿ã†ã®ã‹ã‚ˆï¼ï¼ï¼ã€ã¿ãŸã„ãªäº‹ä¾‹ã‚’è€³ã«ã™ã‚‹ã“ã¨ã‚‚ã‚ã‚Šã¾ã™ã€‚

ã§ã€ä¸€èˆ¬ã«LDAã¨ã„ã†ã¨ã‚·ã‚¹ãƒ†ãƒ å®Ÿè£…ã‚’å¿µé ã«ç½®ãã‚±ãƒ¼ã‚¹ãŒå¤šãã€å¿…ç„¶çš„ã«Pythonãªã©ã§ã®å®Ÿè£…ã®æ–¹ãŒå…¥æ‰‹ã—ã‚„ã™ã„ã§ã™ã€‚ä¾‹ãˆã°word2vecã®æ™‚ã«ã‚‚å‡ºã¦ããŸgensimã®å®Ÿè£…ãŒæœ‰åã§ã™ã€‚ãŸã ã€ãƒãƒ¼ã‚«ãƒ«ã§è©¦ã™ã ã‘ãªã‚‰Rã«ã‚‚{lda}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŒã‚ã‚Šã€çœŸä¼¼äº‹ã ã‘ãªã‚‰ç°¡å˜ã«ã§ãã¾ã™ã€‚ã¨ã‚Šã‚ãˆãšid:MikuHatsuneã•ã‚“ã®è¨˜äº‹ã‹ã‚‰ã‚³ãƒ¼ãƒ‰ã‚’ä¸¸ã€…ãªãžã£ã¦ã¿ã¾ã—ã‚‡ã†ï¼ˆç¬‘ï¼‰ã€‚

ãŸã ã—ä½¿ã†ãƒ‡ãƒ¼ã‚¿ã¯'newsgroups'ã«å¤‰æ›´ã—ã¾ã—ãŸã€‚ä¸Šè¨˜è¨˜äº‹ä¸ã§ã‚‚ä½¿ã‚ã‚Œã¦ã„ã‚‹'cora'åŒæ§˜{lda}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã«åŒæ¢±ã•ã‚Œã¦ã„ã‚‹ã€20ã‚«ãƒ†ã‚´ãƒª20,000æœ¬ã®newsgroup*14ã®è¨˜äº‹ã‚’é›†ã‚ãŸãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã§ã™ã€‚

> library(lda)
> data(newsgroup.train.documents)
> data(newsgroup.vocab)
# æœ€åˆã®è¨˜äº‹ã®word frequencyã‚’é©å½“ã«headã—ã¦ã¿ã‚‹
> head(as.data.frame(cbind(newsgroup.vocab[newsgroup.train.documents[[1]][1, ]+1],newsgroup.train.documents[[1]][2, ])),n=10)
          V1 V2
1    archive  4
2       name  2
3    atheism 10
4  resources  4
5        alt  2
6       last  1
7   modified  1
8   december  1
9    version  3
10   atheist  9

# ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«ã‚’æŽ¨å®šã™ã‚‹
> K <- 20
> result <- lda.collapsed.gibbs.sampler(newsgroup.train.documents, K, newsgroup.vocab, 25, 0.1, 0.1, compute.log.likelihood=TRUE)

# å€‹ã€…ã®ãƒˆãƒ”ãƒƒã‚¯ã‚’æ§‹æˆã™ã‚‹å˜èªžã‚’3å€‹ãªã„ã—20å€‹æŒ™ã’ã¦ã¿ã‚‹
> top.words3 <- top.topic.words(result$topics, 3, by.score=TRUE)
> top.words20 <- top.topic.words(result$topics, 20, by.score=TRUE)
> top.words3
     [,1]   [,2]    [,3]    [,4]    [,5]   [,6]   [,7]     [,8]  [,9]     [,10]     [,11]  [,12]      [,13]
[1,] "he"   "god"   "space" "drive" "that" "that" "window" "it"  "that"   "com"     "he"   "windows"  "the"
[2,] "they" "that"  "the"   "scsi"  "it"   "was"  "file"   "car" "israel" "medical" "team" "software" "of" 
[3,] "was"  "jesus" "of"    "mb"    "mr"   "of"   "db"     "you" "not"    "was"     "game" "graphics" "and"
     [,14]        [,15]  [,16]  [,17]  [,18]    [,19]   [,20] 
[1,] "key"        "god"  "you"  "you"  "edu"    "space" "that"
[2,] "encryption" "that" "that" "it"   "com"    "nasa"  "we"  
[3,] "chip"       "of"   "gun"  "they" "writes" "for"   "you" 
> top.words20
      [,1]        [,2]        [,3]         [,4]         [,5]             [,6]      [,7]          [,8]    
 [1,] "he"        "god"       "space"      "drive"      "that"           "that"    "window"      "it"    
 [2,] "they"      "that"      "the"        "scsi"       "it"             "was"     "file"        "car"   
 [3,] "was"       "jesus"     "of"         "mb"         "mr"             "of"      "db"          "you"   
 [4,] "were"      "he"        "nasa"       "card"       "stephanopoulos" "not"     "server"      "my"    
 [5,] "she"       "the"       "and"        "disk"       "president"      "it"      "motif"       "that"  
 [6,] "had"       "of"        "launch"     "output"     "you"            "as"      "widget"      "use"   
 [7,] "and"       "is"        "satellite"  "file"       "we"             "you"     "mit"         "or"    
 [8,] "we"        "not"       "center"     "controller" "he"             "writes"  "sun"         "com"   
 [9,] "that"      "we"        "orbit"      "entry"      "government"     "drugs"   "uk"          "driver"
[10,] "her"       "his"       "lunar"      "drives"     "is"             "are"     "com"         "engine"
[11,] "armenians" "you"       "in"         "ide"        "not"            "were"    "edu"         "cars"  
[12,] "his"       "bible"     "gov"        "mhz"        "this"           "article" "display"     "if"    
[13,] "turkish"   "people"    "earth"      "bus"        "jobs"           "who"     "set"         "wiring"
[14,] "the"       "christian" "by"         "system"     "what"           "in"      "application" "get"   
[15,] "there"     "armenian"  "to"         "memory"     "com"            "about"   "windows"     "but"   
[16,] "said"      "it"        "spacecraft" "mac"        "clinton"        "sex"     "code"        "oil"   
[17,] "armenian"  "who"       "mission"    "dos"        "if"             "greek"   "lib"         "me"    
[18,] "him"       "christ"    "south"      "if"         "believe"        "people"  "cs"          "can"   
[19,] "me"        "turkish"   "on"         "windows"    "think"          "is"      "tar"         "up"    
[20,] "went"      "are"       "mars"       "pc"         "people"         "livesey" "xterm"       "speed" 
      [,9]      [,10]        [,11]      [,12]         [,13]        [,14]        [,15]        [,16]    
 [1,] "that"    "com"        "he"       "windows"     "the"        "key"        "god"        "you"    
 [2,] "israel"  "medical"    "team"     "software"    "of"         "encryption" "that"       "that"   
 [3,] "not"     "was"        "game"     "graphics"    "and"        "chip"       "of"         "gun"    
 [4,] "you"     "in"         "season"   "image"       "government" "clipper"    "is"         "the"    
 [5,] "israeli" "disease"    "games"    "dos"         "israel"     "keys"       "it"         "he"     
 [6,] "to"      "msg"        "hockey"   "ftp"         "jews"       "to"         "not"        "guns"   
 [7,] "of"      "aids"       "play"     "files"       "militia"    "government" "we"         "we"     
 [8,] "is"      "patients"   "players"  "version"     "states"     "privacy"    "to"         "they"   
 [9,] "people"  "article"    "year"     "file"        "their"      "security"   "you"        "not"    
[10,] "jews"    "writes"     "his"      "available"   "by"         "escrow"     "believe"    "have"   
[11,] "who"     "use"        "league"   "pub"         "united"     "secure"     "jesus"      "is"     
[12,] "are"     "food"       "teams"    "mail"        "state"      "nsa"        "evidence"   "if"     
[13,] "their"   "it"         "baseball" "information" "congress"   "des"        "he"         "your"   
[14,] "they"    "apr"        "win"      "pc"          "turkey"     "law"        "there"      "people" 
[15,] "war"     "hiv"        "nhl"      "system"      "amendment"  "the"        "christians" "weapons"
[16,] "it"      "university" "player"   "anonymous"   "um"         "system"     "his"        "it"     
[17,] "we"      "edu"        "was"      "for"         "law"        "will"       "christian"  "are"    
[18,] "arab"    "had"        "vs"       "mac"         "mr"         "public"     "they"       "of"     
[19,] "human"   "health"     "pts"      "data"        "arms"       "of"         "do"         "was"    
[20,] "were"    "my"         "division" "internet"    "turks"      "pgp"        "atheism"    "do"     
      [,17]     [,18]     [,19]      [,20]   
 [1,] "you"     "edu"     "space"    "that"  
 [2,] "it"      "com"     "nasa"     "we"    
 [3,] "they"    "writes"  "for"      "you"   
 [4,] "is"      "article" "program"  "is"    
 [5,] "that"    "it"      "edu"      "to"    
 [6,] "writes"  "my"      "the"      "it"    
 [7,] "edu"     "apr"     "email"    "they"  
 [8,] "don"     "you"     "flight"   "do"    
 [9,] "uiuc"    "bike"    "system"   "not"   
[10,] "think"   "car"     "moon"     "my"    
[11,] "your"    "cs"      "henry"    "he"    
[12,] "article" "dod"     "research" "have"  
[13,] "not"     "ca"      "engine"   "people"
[14,] "my"      "pitt"    "model"    "what"  
[15,] "com"     "cars"    "sale"     "church"
[16,] "would"   "too"     "send"     "be"    
[17,] "me"      "like"    "shuttle"  "think" 
[18,] "if"      "ride"    "you"      "can"   
[19,] "do"      "ac"      "entries"  "there" 
[20,] "cso"     "uucp"    "looking"  "if"    

# æœ€åˆã®5ã¤ã®è¨˜äº‹ã ã‘ãƒã‚§ãƒƒã‚¯ã—ã¦ã¿ã‚‹
> N <- 5
> topic.proportions <- t(result$document_sums) / colSums(result$document_sums)
> topic.proportions <- topic.proportions[1:N, ]
> topic.proportions[is.na(topic.proportions)] <-  1 / K
> colnames(topic.proportions) <- apply(top.words3, 2, paste, collapse=" ")
> 
> par(mar=c(5, 14, 2, 2))
> barplot(topic.proportions, beside=TRUE, horiz=TRUE, las=1, xlab="proportion")

æœ€åˆã®5ã¤ã®ãƒ‹ãƒ¥ãƒ¼ã‚¹è¨˜äº‹ã®ãƒˆãƒ”ãƒƒã‚¯ç¢ºçŽ‡ã‚’ãƒ—ãƒãƒƒãƒˆã—ã¦ã¿ãŸã‚‚ã®ã§ã™ãŒã€å¹¾ã¤ã‹ã®ãƒˆãƒ”ãƒƒã‚¯ã¯ç‰¹å®šã®è¨˜äº‹ã—ã‹å«ã‚“ã§ã„ãªã„ã¨ã‹è‰²ã€…è¦‹ã¦å–ã‚Œã¾ã™ãã€‚ã¡ãªã¿ã«'newsgroups'ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¯train / testã«åˆ†ã‹ã‚Œã¦ã„ã‚‹ã®ã§ã€trainã§ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã£ã¦testã§è©¦ã™ã“ã¨ã‚‚ã§ãã¾ã™ã€‚

ã“ã‚Œã¾ãŸå®Ÿã¯åƒ•è‡ªèº«ãŒå®Ÿå‹™ã§ã¯ä¸€åº¦ã‚‚ã‚„ã£ã¦ã„ãªã„ã‚‚ã®ã®ï¼ˆæ»æ±—ï¼‰ã€ä»¥å‰ã®ç¾å ´ã§ã¯ãƒãƒ¼ãƒ ãƒ¡ãƒ³ãƒãƒ¼ã«ã‚„ã£ã¦ã‚‚ã‚‰ã£ã¦ã„ãŸï¼†é »ç¹ã«è«–æ–‡è¼ªèªä¼šã§ã‚‚é‡è¦ãƒ†ãƒ¼ãƒžã¨ã—ã¦å–ã‚Šä¸Šã’ã‚‰ã‚Œã¦ã„ãŸã®ã§éžå¸¸ã«é¦´æŸ“ã¿æ·±ã„æ‰‹æ³•ã®ä¸€ã¤ã§ã™ã€‚ç¾ä»£ã®ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³æŠ€è¡“ã®åŸºç¤Žã¨ãªã£ã¦ã„ã‚‹ã®ãŒå› ååˆ†è§£ç³»ã®è«¸æ‰‹æ³•ã¨ã„ã†ã“ã¨ã‚‚ã‚ã‚Šã€å¥½ã‚“ã§å–ã‚Šä¸Šã’ã‚‰ã‚Œã¦ã„ãŸã¨ã„ã†å´é¢ã‚‚ã‚ã‚‹ã‹ã¨æ€ã„ã¾ã™ã€‚

æœ¬è³ªçš„ã«ã¯ã€Œæ¬¡å…ƒå‰Šæ¸›ã€å³ã¡å…ƒã®ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰è¦ã‚‰ãªã„è¦ç´ ã‚’å‰ŠãŽè½ã¨ã™ã¨ã„ã†ã€ãŸã ãã‚Œã ã‘ã§ã™ã€‚ã—ã‹ã—ãªãŒã‚‰ã€ã“ã‚Œã«ã‚ˆã£ã¦ç–Žãª(sparse)ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰ã§ã‚‚ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ã®è¨ˆç®—ãŒã—ã‚„ã™ããªã‚‹ã¨ã„ã†ãƒ¡ãƒªãƒƒãƒˆãŒå¾—ã‚‰ã‚Œã¾ã™ã€‚ã“ã®è¾ºã¯å…¨éƒ¨æ›¸ã„ã¦ã„ã‚‹ã ã‘ã§å¤§å¤‰ï¼†åƒ•ã®å‹‰å¼·ã‚‚ä¸è¶³ã—ã¦ã„ã‚‹ã®ã§ã€ä»£ã‚ã‚Šã«ã„ã¤ã‚‚ãŠä¸–è©±ã«ãªã£ã¦ã„ã‚‹ãŠäºŒæ–¹ã€id:SAMã•ã‚“ä¸¦ã³ã«id:a_bickyã•ã‚“ã®ãƒ–ãƒã‚°è¨˜äº‹ã‚’å¼•ç”¨ã—ã¦ãŠãã¾ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã€GitHub ãƒªãƒã‚¸ãƒˆãƒªã«ä¸Šã’ã¦ã‚ã‚‹è³¼è²·ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦åŒã˜ã“ã¨ã‚’ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚ã¶ã£ã¡ã‚ƒã‘ãŠäºŒæ–¹ã®å®Ÿè·µä¾‹ã‚’ãŸã ãªãžã£ã¦ã„ã‚‹ã ã‘ãªã®ã§ä½•ä¸€ã¤ã‚ªãƒªã‚¸ãƒŠãƒ«ã§ã¯ã‚ã‚Šã¾ã›ã‚“ã”ã‚ã‚“ãªã•ã„ï¼ˆæ±—ï¼‰ã€‚

# æ‹™è‘—9ç« ã®è³¼è²·ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿
> M<-read.csv('https://github.com/ozt-ca/tjo.hatenablog.samples/raw/master/r_samples/public_lib/DM_sampledata/ch9_2.txt',header=T,sep=' ')

# SVDã§rankã‚’4ã¾ã§å‰Šã£ãŸä¾‹
> res.svd <- svd(M) # SVD
> u <- res.svd$u
> v <- res.svd$v
> d <- diag(res.svd$d)
> d_r <- d
> for (i in 5:11) {
+     d_r[i, i] <- 0
+ }
> R_svd <- as.matrix(M) %*% v %*% solve(d) %*% d_r %*% t(v)
> colnames(R_svd) <- colnames(M)
> head(round(R_svd, 2)) # ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ç®—å‡ºçµæžœ
     book cosmetics electronics food imported liquor magazine  sake stationery  toy travel
[1,] 0.74      1.21        0.15 0.36     0.24   1.00     0.82  0.14       0.42 1.07   0.19
[2,] 0.70      0.07        0.27 0.64     0.91  -0.02    -0.06 -0.03       0.63 0.02   0.23
[3,] 1.12      0.71        0.34 0.73     0.14   0.95     0.40  1.04       0.72 1.04   0.38
[4,] 1.40      0.68        0.45 1.01     0.72   0.92     0.33  0.79       1.00 1.02   0.47
[5,] 0.81      0.06        0.27 0.52    -0.03   0.96    -0.05  0.99       0.51 1.02   0.30
[6,] 1.13      1.17        0.35 0.87     0.20  -0.05     0.76  1.12       0.78 0.03   0.40

# NMFã§rankã‚’4ã¾ã§å‰Šã£ãŸä¾‹
> library(NMF)
> res.nmf <- nmf(M, 4, seed=1234) # NMF
> w <- basis(res.nmf)
> h <- coef(res.nmf)
> h_z <- rbind(h, rep(0, 11))
> R_nmf <- w %*% h
> head(round(R_nmf, 2)) # ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ç®—å‡ºçµæžœ
     book cosmetics electronics food imported liquor magazine sake stationery  toy travel
[1,] 0.81      1.36        0.00 0.52     0.00   0.97     0.68 0.00       0.54 1.13   0.00
[2,] 0.64      0.00        0.00 0.48     0.88   0.00     0.00 0.00       0.47 0.00   0.52
[3,] 1.07      0.75        0.47 0.70     0.00   1.00     0.37 0.76       0.71 1.17   0.00
[4,] 1.57      0.61        0.33 1.10     1.02   0.85     0.30 0.53       1.10 0.99   0.61
[5,] 0.78      0.00        0.44 0.50     0.00   0.95     0.00 0.70       0.52 1.11   0.00
[6,] 1.19      1.38        0.81 0.85     0.00   0.00     0.68 1.30       0.79 0.00   0.00

SVDã¨NMFã¨ã§æœ€åˆã®6ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«å¯¾ã™ã‚‹ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ã®çµæžœãŒå¾®å¦™ã«ç•°ãªã‚‹ï¼ˆå‰è€…ã¯è² ã®å€¤ã‚’å«ã‚“ã§ã„ã‚‹ãŒå¾Œè€…ã¯éžè² ã®ã¿ï¼‰ã“ã¨ãŒãŠåˆ†ã‹ã‚Šã‹ã¨æ€ã„ã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ã€å®Ÿå‹™ã®ç¾å ´ã§ã®ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ã«ç”¨ã„ã‚‰ã‚Œã‚‹æ‰‹æ³•ã¯å®Ÿç”¨ä¸Šã®ãƒã‚¤ãƒ³ãƒˆã®ã¿ãªã‚‰ãšè¨ˆç®—è² è·ãªã©ã‚‚è€ƒæ…®ã—ãªã‘ã‚Œã°ã„ã‘ãªã„ãŸã‚ã€ã‚‚ã£ã¨è¤‡é›‘ã§ã™ã€‚

çµ±è¨ˆå¦ã¯ã€Œèª¬æ˜Žã€ã™ã‚‹ã‚‚ã®

åŸºæœ¬çš„ã«çµ±è¨ˆå¦çš„ãªè¦³ç‚¹ã‹ã‚‰å›žå¸°ãƒ¢ãƒ‡ãƒ«ã‚’ç”¨ã„ã‚‹éš›ã¯ã€ä¾‹ãˆã°ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®å¤§å°ã¨ã„ã£ãŸã€Œèª¬æ˜Žã€çš„ãªè¦ç´ ã‚’é‡è¦–ã™ã‚‹ã“ã¨ãŒå¤šã„ã‚ˆã†ã§ã™ã€‚ä»–æ–¹ã€æ©Ÿæ¢°å¦ç¿’çš„ãªè¦³ç‚¹ã‹ã‚‰ã¯ãƒ¢ãƒã«æœªçŸ¥ãƒ‡ãƒ¼ã‚¿ï¼ˆãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ï¼‰ã®ã€Œäºˆæ¸¬ã€ã‚’é‡è¦–ã™ã‚‹ã“ã¨ãŒå¤šã„ã§ã™ã€‚

ãã†è€ƒãˆãŸå ´åˆã€è‡ªãšã¨ãƒ¢ãƒ‡ãƒ«ã®æ€§èƒ½è©•ä¾¡ã‚’ã™ã‚‹æŒ‡æ¨™ã¯å¤‰ã‚ã£ã¦ãã¾ã™ã€‚çµ±è¨ˆå¦çš„ãªè¦³ç‚¹ã‹ã‚‰ã¯AICã®ã‚ˆã†ãªé™çš„ãªæŒ‡æ¨™ã§ãƒ¢ãƒ‡ãƒ«ã‚’è©•ä¾¡ã™ã‚‹ã“ã¨ãŒå¤šã„ä¸€æ–¹ã§ã€æ©Ÿæ¢°å¦ç¿’çš„ãªè¦³ç‚¹ã‹ã‚‰ã¯ã‚„ã¯ã‚Šäº¤å·®æ¤œè¨¼ã§ã®æ€§èƒ½ã§ãƒ¢ãƒ‡ãƒ«ã‚’è©•ä¾¡ã™ã‚‹ã“ã¨ãŒå¤šãç‰¹ã«ã€Œæ±ŽåŒ–æ€§èƒ½ãŒé«˜ã„ã‹ã©ã†ã‹ã€ãŒæ±‚ã‚ã‚‰ã‚Œã¾ã™ã€‚ã€Œèª¬æ˜Žã€ã¨ã€Œäºˆæ¸¬ã€ã®ã©ã¡ã‚‰ã«é‡ãã‚’ç½®ãã‹ãŒé‡è¦ã ã¨è¦šãˆã¦ãŠãã¾ã—ã‚‡ã†ã€‚

ã¾ãŸã€Œãƒ¢ãƒ‡ãƒ«æ€§èƒ½ã«ä½•ãŒå½±éŸ¿ã™ã‚‹ã‹ã€ã‚‚å¤§äº‹ãªãƒã‚¤ãƒ³ãƒˆã§ã™ã€‚ä¸€èˆ¬ã«ã€çµ±è¨ˆå¦çš„ãªå´é¢ãŒå¼·ã„ãƒ¢ãƒ‡ãƒ«ï¼ˆç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ã‚„ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ãªã©ï¼‰ã¯èª¬æ˜Žå¤‰æ•°ã®å–æ¨é¸æŠžãŒãƒ¢ãƒ‡ãƒ«æ€§èƒ½ã«å½±éŸ¿ã‚’ä¸Žãˆã‚‹ä¸€æ–¹ã€æ©Ÿæ¢°å¦ç¿’çš„ãªå´é¢ãŒå¼·ã„ãƒ¢ãƒ‡ãƒ«ï¼ˆãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã‚„Deep Learningãªã©ï¼‰ã¯ãã‚Œã«åŠ ãˆã¦ãƒ¢ãƒ‡ãƒ«ãŒæ§‹é€ çš„ã«æŒã¤ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿*15ã®é¸ã³æ–¹ãŒå¤§ããå½±éŸ¿ã™ã‚‹ã“ã¨ã‚‚ã‚ã‚Šã¾ã™ã€‚ãã®ãŸã‚å¾Œè€…ã¯ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã®ã‚ˆã†ãªã—ã‚‰ã¿æ½°ã—çš„ãªæ–¹æ³•ã§ãƒ™ã‚¹ãƒˆã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã‚’è¦‹ã¤ã‘ã‚‹å¿…è¦ãŒã‚ã£ãŸã‚Šã—ã¾ã™ã€‚

ã“ã®ã‚ˆã†ã«ã€é¸ã¶æ‰‹æ³•æ¬¡ç¬¬ã§ãƒ¢ãƒ‡ãƒ«ã®æ€§èƒ½ã‚’å‘ä¸Šã•ã›ã‚‹ãŸã‚ã®å–ã‚Šçµ„ã¿æ–¹ã¾ã§ã‚‚ãŒç•°ãªã‚‹ã¨ã„ã†ç‚¹ã«ã€ãƒ“ã‚¸ãƒã‚¹å®Ÿå‹™ã®ç¾å ´ã§ç”¨ã„ã‚‹éš›ã¯æ³¨æ„ãŒå¿…è¦ã§ã™ã€‚é€†ã«è¨€ãˆã°ãã“ã•ãˆã¡ã‚ƒã‚“ã¨å‡ºæ¥ã¦ã„ã‚Œã°ã€ã‚ã¾ã‚Šé›£ã—ã„æ‰‹æ³•ã‚’ä½¿ã‚ãªãã¦ã‚‚ååˆ†ã«å®Ÿç”¨ã«è€ãˆã‚‹çµæžœã‚’å‡ºã›ã‚‹ã¨ã„ã†ã“ã¨ã‚‚è¨€ãˆã¾ã™ï¼ˆå€‹äººçš„ãªçµŒé¨“ã‹ã‚‰è¨€ãˆã°ï¼‰ã€‚

æœ€å¾Œã«

ã„ãã¤ã‹å‰å›žã®10é¸ã‹ã‚‰æ´©ã‚ŒãŸã‚‚ã®ãŒã‚ã‚Šã¾ã™ãŒã€ä»£è¡¨ãŒæ±ºå®šæœ¨ã¨SVMã€‚å‰è€…ã¯å¼±å¦ç¿’å™¨ã¨ã—ã¦ã¯ä»Šã§ã‚‚é‡å®ã•ã‚Œã¾ã™ãŒã€å˜ä½“ã¨ã—ã¦ã¿ãŸå ´åˆã«ã€Œç²¾åº¦ã¯ç¾ä»£ã®åˆ†é¡žå™¨ã«æ¯”ã¹ã¦æ ¼æ®µã«åŠ£ã‚‹ã€ä¸€æ–¹ã§ã€Œæ€ã£ãŸä»¥ä¸Šã«ã‚¢ãƒ‰ãƒ›ãƒƒã‚¯åˆ†æžç”¨é€”ã¨ã—ã¦ã‚‚çµæžœã®è§£é‡ˆãŒé›£ã—ã„ã€ã“ã¨ã€ãã—ã¦Rã®å ´åˆä¾¿åˆ©ã ã£ãŸ{mvpart}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŒCRANã‹ã‚‰å‰Šé™¤ã•ã‚Œã¦ã—ã¾ã£ã¦ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ãŒé¢å€’è‡ããªã£ã¦ã—ã¾ã£ãŸã®ã§ã€ä»Šå›žã¯å¤–ã—ã¾ã—ãŸã€‚

ãã—ã¦SVMã¯ãã®ä»–ã®åˆ†é¡žå™¨ãŒå‹ƒèˆˆã™ã‚‹ä¸ã«ã‚ã£ã¦ã€Œæ±ŽåŒ–æ€§èƒ½ã«å„ªã‚Œã‚‹ã€ä»¥å¤–ã®ãƒ¡ãƒªãƒƒãƒˆãŒã‚ã¾ã‚Šå¤§ãããªã„ã®ã¨ã€ã©ã¡ã‚‰ã‹ã¨ã„ã†ã¨å†…éƒ¨ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®å°Žå‡ºï¼†å®Ÿè£…ã‚’å‹‰å¼·ã™ã‚‹æ–¹ãŒå¦ã³ãŒå¤§ãã„ã¨ã„ã†ä»£ç‰©ãªã®ã§ã€ä»Šå›žã®ã‚ˆã†ãªã€Œã¾ãšã¯ä½¿ã„æ–¹ã‚’è¦šãˆã¾ã—ã‚‡ã†ã€çš„è¨˜äº‹ã«ã¯ã‚ã¾ã‚Šãƒ•ã‚£ãƒƒãƒˆã—ãªã„ã¨ã„ã†ã“ã¨ã§å¤–ã—ã¦ã‚ã‚Šã¾ã™ã€‚

å¾Œã¯ã€ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžã«ã¤ã„ã¦ã¯ç¾å ´ã§ä½¿ã‚ã‚Œã‚‹ã“ã¨è‡ªä½“ãŒæ¸›ã£ã¦ããŸï¼ˆãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ãªã‚‰SVD/NMFç³»ã®æ–¹ãŒå¼·ã„ï¼‰ã“ã¨ã‚‚ã‚ã‚Šå‰²æ„›ã€‚è¨ˆé‡æ™‚ç³»åˆ—åˆ†æžã‚‚ã€ãƒ“ã‚¸ãƒã‚¹å®Ÿå‹™ã ã¨å†…ç”Ÿå¤‰æ•°ãŒãƒ¡ã‚¤ãƒ³ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’æ‰±ã†ã‚±ãƒ¼ã‚¹ãŒï¼ˆé‡‘èžãªã©åˆ†é‡Žã‚’é™ã‚Œã°å¤šç”¨ã•ã‚Œã‚‹ã¨ã¯è¨€ãˆã©ã‚‚ï¼‰å‰²ã¨é™ã‚‰ã‚Œã‚‹ã®ã§ã€ãƒ™ã‚¤ã‚¸ã‚¢ãƒ³ ãƒ¢ãƒ‡ãƒªãƒ³ã‚°å´ã§å¯¾å¿œã—ã¦ã‚‚ã‚‰ã†ã¨ã„ã†ã“ã¨ã§ä»Šå›žã¯å¤–ã—ã¾ã—ãŸã€‚

ä»Šå›žæŒ™ã’ãŸ12å€‹ã®æ‰‹æ³•ã«ã¤ã„ã¦ã‚ˆã‚Šæ·±ãå¦ã¶ä¸Šã§ãŠè–¦ã‚ã®æ›¸ç±ã¯ã€ä»¥ä¸‹ã®éŽåŽ»è¨˜äº‹ã«ã¾ã¨ã‚ã¦ã‚ã‚Šã¾ã™ã®ã§ã‚ˆã‚ã—ã‘ã‚Œã°ãã¡ã‚‰ã‚‚ã©ã†ãžã€‚

ã‚‚ã¡ã‚ã‚“ã“ã®5å†Šï¼‹12å†Šã ã‘ã§ã¯ä¸Šè¨˜ã®12æ‰‹æ³•å…¨ã¦ã‚’åäºŒåˆ†ã«ç†è§£ã™ã‚‹ã«ã¯è¶³ã‚Šãªã„ã®ã§ã€é©å®œã‚‚ã£ã¨ä½“ç³»çš„ã«ã¾ã¨ã¾ã£ãŸæ›¸ç±ã«çš†ã•ã‚“ã”è‡ªèº«ã§å½“ãŸã‚‰ã‚Œã‚‹ã“ã¨ã‚’ãŠè–¦ã‚ã—ã¾ã™ã€‚ã¨ã„ã†ã‹ã€åƒ•è‡ªèº«ãŒã“ã®5å†Šï¼‹12å†Šã‚’è¶…ãˆã¦è‰²ã€…åˆ¥ã«è‰¯ã„ãƒ†ã‚ã‚¹ãƒˆæŽ¢ã—å‡ºã—ã¦ãã¦èªã‚“ã§ã€ã‚‚ã£ã¨å‹‰å¼·ã›ãã°ã€‚ã€‚ã€‚

ã¨ã„ã†ã“ã¨ã§ã€3å¹´é–“ã®åˆ†é‡Žå…¨ä½“ã®é€²æ©ã‚’è¸ã¾ãˆã¦æ”¹ã‚ã¦ã€Œ10+2é¸ã€ã‚’å–ã‚Šä¸Šã’ã¦ã¿ã¾ã—ãŸã€‚æ¬¡ã«æ›¸ãã®ã¯ã¾ãŸ3å¹´å¾Œã§ã™ã‹ãï¼Ÿï¼ˆç¬‘ï¼‰

è¿½è¨˜

è‹±èªžç‰ˆæ›¸ãã¾ã—ãŸã€‚

*1:Stanã‚„xgboostã®ã‚ˆã†ã«gcc / clangã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ãŒé–“æŽ¥çš„ã«å¿…è¦ãªã‚‚ã®ã€ã¯ãŸã¾ãŸH2Oã®ã‚ˆã†ã«JavaãŒé–“æŽ¥çš„ã«å¿…è¦ãªã‚‚ã®ã‚‚ã‚ã‚Šã¾ã™

*2:ä»®èª¬æ¤œå®šã®æž çµ„ã¿ã¯éžå¸¸ã«ã‚„ã‚„ã“ã—ãã¦ã€å®Ÿã¯ã“ã®å ´åˆã§ã‚‚DB1ã®æ–¹ãŒã‚ˆã‚Šé«˜é€Ÿã§ã‚ã‚‹ã¨ã€Œçµè«–ä»˜ã‘ã‚‹ã€ã“ã¨ãŒå¦¥å½“ã‹ã©ã†ã‹ã«ã¯è¤‡é›‘ãªè°è«–ãŒã‚ã£ãŸã‚Šã—ã¾ã™ï¼ˆç‰¹ã«åŠ¹æžœé‡ã¨ã‚µãƒ³ãƒ—ãƒ«ã‚µã‚¤ã‚ºã¯ãŸã¾ãŸfile drawer problemãªã©ãŒçµ¡ã‚€ã¨ï¼‰ã€‚ã¨ã¯è¨€ãˆã€çµ±è¨ˆå¦ã®ã€Œãƒ¦ãƒ¼ã‚¶ãƒ¼ã€ã®ç«‹å ´ã¨ã—ã¦ã¯ã²ã¨ã¾ãšæœ‰æ„å·®ã‚ã‚Šï¼çµè«–ãŒå‡ºãŸã¨ã¿ãªã—ã¦ã‚‚å¤§æŠµã®å ´åˆã¯å•é¡Œãªã„ã§ã™

*3:ã¶ã£ã¡ã‚ƒã‘ä¾‹ãŒå¾®å¦™ã§ã™ãŒã“ã‚Œä»¥ä¸Šæ€ã„æµ®ã‹ã°ãªã‹ã£ãŸã‚“ã§ã™ã”ã‚ã‚“ãªã•ã„ã”ã‚ã‚“ãªã•ã„ã”ã‚ã‚“ãªã•ã„

*4:ã‚‚ã¡ã‚ã‚“ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã‚µã‚¤ãƒ‰ã§æ©Ÿæ¢°å¦ç¿’ã‚·ã‚¹ãƒ†ãƒ ã®å®Ÿè£…ã‚’ã™ã‚‹éš›ã«ã¯ã€ç°¡å˜ãªã“ã¨ã‚‚ã‚ã£ã¦æ€ã£ãŸä»¥ä¸Šã«å¤šç”¨ã•ã‚Œã‚‹ã“ã¨ã®å¤šã„æ‰‹æ³•ã§ã™ãŒ

*5:ã¤ã¾ã‚Šã‚«ã‚¦ãƒ³ãƒˆãƒ‡ãƒ¼ã‚¿ã§ã‚ã£ã¦ã€é€£ç¶šãƒ‡ãƒ¼ã‚¿ã§ã¯ãªã„ç‚¹ã«æ³¨æ„ãŒå¿…è¦

*6:å…·ä½“çš„ã«ã¯ã€ã“ã®ã‚ˆã†ãªã‚±ãƒ¼ã‚¹ã§ã¯ç·ã‚µã‚¤ãƒˆè¨ªå•è€…æ•°ã‚’ã€Œã‚ªãƒ•ã‚»ãƒƒãƒˆé …ã€ã¨ã—ã¦ãƒ¢ãƒ‡ãƒ«ã«çµ„ã¿è¾¼ã‚€å¿…è¦ãŒã‚ã‚Šã¾ã™

*8:set.seed(71)ã™ã‚‹ã¨è‰¯ã„ã‹ã‚‚ï¼Ÿç¬‘

*9:è‹±èªžãƒ–ãƒã‚°ã§ã‚‚H2Oã®ãƒãƒ¼ã‚¸ãƒ§ãƒ³ãŒé•ã†ä»¥å¤–ã¯å…¨ã¦å®Œå…¨ã«åŒã˜è¨å®šã§è©¦ã—ãŸã“ã¨ãŒã‚ã‚‹ã‚“ã§ã™ãŒã€ã“ã‚Œã‚ˆã‚Šã‚‚æ£ç”çŽ‡ã¯ä½Žãå‡ºã¦ã„ã¾ã™ã€‚ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚¢ãƒƒãƒ—ã—ãŸã¤ã„ã§ã«ä½•ã‹å†…éƒ¨ã‚’å¤‰æ›´ã—ãŸã‚“ã§ã™ã‹ãã€‚ã€‚ã€‚

*10:è¦ã¯ã„ã‚ã‚†ã‚‹ReLUã§ã™ã

*14:ã“ã‚Œã£ã¦ã‚ã®fjã¨ã‹ã‚‚å«ã‚“ã§ã‚‹ã€Œãƒ‹ãƒ¥ãƒ¼ã‚¹ã‚°ãƒ«ãƒ¼ãƒ—ã€ã§ã™ã‚ˆãï¼Ÿ

æ¸‹è°·é§…å‰ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã®ãƒ–ãƒã‚°

å…ƒç¥–ã€Œå…æœ¬æœ¨ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã€ã§ã™ / é“çŽ„å‚â†’éŠ€åº§â†’æ±äº¬â†’å…æœ¬æœ¨â†’æ¸‹è°·é§…å‰

çµ±è¨ˆå¦çš„æ¤œå®šï¼ˆtæ¤œå®šãƒ»ã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ANOVAãªã©ï¼‰

tæ¤œå®š

ã‚«ã‚¤äºŒä¹—æ¤œå®š

ANOVAï¼ˆåˆ†æ•£åˆ†æžï¼‰

ãã®ä»–ã®æ¤œå®š

é‡å›žå¸°åˆ†æžï¼ˆç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ï¼‰

ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ï¼ˆGLMï¼šãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ãƒ»ãƒã‚¢ã‚½ãƒ³å›žå¸°ãªã©ï¼‰

ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

ãƒã‚¢ã‚½ãƒ³å›žå¸°

æ£å‰‡åŒ–ï¼ˆL1 / L2ãƒŽãƒ«ãƒ ï¼‰

ãã®ä»–ã®GLM

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ

Xgboostï¼ˆå‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨ï¼‰

Deep Learning

è¿½è¨˜ï¼šMXnetã®Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸{mxnet}ã‚’ç”¨ã„ãŸConvolutional Neural Networkã«ã‚ˆã‚‹ä¾‹

MCMCã«ã‚ˆã‚‹ãƒ™ã‚¤ã‚¸ã‚¢ãƒ³ ãƒ¢ãƒ‡ãƒªãƒ³ã‚°

è¿½è¨˜ï¼šãƒ™ã‚¯ãƒˆãƒ«åŒ–ã—ãŸStanã‚¹ã‚¯ãƒªãƒ—ãƒˆã®ä¾‹

word2vec

K-meansã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

ã‚°ãƒ©ãƒ•ç†è«–ãƒ»ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯åˆ†æž

ãã®ä»–ã®æœ‰ç”¨ãªæ‰‹æ³•ãŸã¡

LDAåŠã³ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«

å› ååˆ†è§£ï¼ˆSVDãƒ»NMFãªã©ï¼‰

æœ€å¾Œã«

è¿½è¨˜

çµ±è¨ˆå­¦çš„æ¤œå®šï¼ˆtæ¤œå®šãƒ»ã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ANOVAãªã©ï¼‰

tæ¤œå®š

ã‚«ã‚¤äºŒä¹—æ¤œå®š

ANOVAï¼ˆåˆ†æ•£åˆ†æžï¼‰

ãã®ä»–ã®æ¤œå®š

é‡å›žå¸°åˆ†æžï¼ˆç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ï¼‰

ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ï¼ˆGLMï¼šãƒ­ã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ãƒ»ãƒã‚¢ã‚½ãƒ³å›žå¸°ãªã©ï¼‰

ãƒ­ã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

ãƒã‚¢ã‚½ãƒ³å›žå¸°

æ­£å‰‡åŒ–ï¼ˆL1 / L2ãƒŽãƒ«ãƒ ï¼‰

ãã®ä»–ã®GLM

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ

Xgboostï¼ˆå‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨ï¼‰

Deep Learning

è¿½è¨˜ï¼šMXnetã®Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸{mxnet}ã‚’ç”¨ã„ãŸConvolutional Neural Networkã«ã‚ˆã‚‹ä¾‹

MCMCã«ã‚ˆã‚‹ãƒ™ã‚¤ã‚¸ã‚¢ãƒ³ãƒ¢ãƒ‡ãƒªãƒ³ã‚°

è¿½è¨˜ï¼šãƒ™ã‚¯ãƒˆãƒ«åŒ–ã—ãŸStanã‚¹ã‚¯ãƒªãƒ—ãƒˆã®ä¾‹

word2vec

K-meansã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

ã‚°ãƒ©ãƒ•ç†è«–ãƒ»ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯åˆ†æž

ãã®ä»–ã®æœ‰ç”¨ãªæ‰‹æ³•ãŸã¡

LDAåŠã³ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«

å› å­åˆ†è§£ï¼ˆSVDãƒ»NMFãªã©ï¼‰

çµ±è¨ˆå­¦ãƒ»æ©Ÿæ¢°å­¦ç¿’ã®è«¸æ‰‹æ³•ã«ã¤ã„ã¦å­¦ã¶ä¸Šã§ç¢ºèªã—ã¦ãŠããŸã„ãƒã‚¤ãƒ³ãƒˆ

æœ€å¾Œã«

è¿½è¨˜

çµ±è¨ˆå¦çš„æ¤œå®šï¼ˆtæ¤œå®šãƒ»ã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ANOVAãªã©ï¼‰

ANOVAï¼ˆåˆ†æ•£åˆ†æžï¼‰

ãã®ä»–ã®æ¤œå®š

é‡å›žå¸°åˆ†æžï¼ˆç·šå½¢å›žå¸°ãƒ¢ãƒ‡ãƒ«ï¼‰

ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«ï¼ˆGLMï¼šãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ãƒ»ãƒã‚¢ã‚½ãƒ³å›žå¸°ãªã©ï¼‰

ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

ãƒã‚¢ã‚½ãƒ³å›žå¸°

æ£å‰‡åŒ–ï¼ˆL1 / L2ãƒŽãƒ«ãƒ ï¼‰

ãã®ä»–ã®GLM

Xgboostï¼ˆå‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨ï¼‰

è¿½è¨˜ï¼šMXnetã®Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸{mxnet}ã‚’ç”¨ã„ãŸConvolutional Neural Networkã«ã‚ˆã‚‹ä¾‹

MCMCã«ã‚ˆã‚‹ãƒ™ã‚¤ã‚¸ã‚¢ãƒ³ ãƒ¢ãƒ‡ãƒªãƒ³ã‚°

è¿½è¨˜ï¼šãƒ™ã‚¯ãƒˆãƒ«åŒ–ã—ãŸStanã‚¹ã‚¯ãƒªãƒ—ãƒˆã®ä¾‹

ã‚°ãƒ©ãƒ•ç†è«–ãƒ»ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯åˆ†æž

ãã®ä»–ã®æœ‰ç”¨ãªæ‰‹æ³•ãŸã¡

LDAåŠã³ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«

å› ååˆ†è§£ï¼ˆSVDãƒ»NMFãªã©ï¼‰

çµ±è¨ˆå¦ãƒ»æ©Ÿæ¢°å¦ç¿’ã®è«¸æ‰‹æ³•ã«ã¤ã„ã¦å¦ã¶ä¸Šã§ç¢ºèªã—ã¦ãŠããŸã„ãƒã‚¤ãƒ³ãƒˆ

æœ€å¾Œã«