Webãƒ‡ãƒ¼ã‚¿åˆ†æžï¼†ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ã‚¹ã§å½¹ç«‹ã¤çµ±è¨ˆå¦ãƒ»æ©Ÿæ¢°å¦ç¿’ç³»ã®åˆ†æžæ‰‹æ³•10é¸

è¿½è¨˜

2016å¹´3æœˆã«ä»¥ä¸‹ã®è¨˜äº‹ã«ã‚ˆã£ã¦ã“ã®å†…å®¹ã¯updateã•ã‚Œã¦ã„ã¾ã™ã€‚ä»Šå¾Œã¯ãã¡ã‚‰ã‚’ãŠèªã¿ä¸‹ã•ã„ã€‚

ä¸»ã«è‡ªåˆ†å‘ã‘ã®ã¾ã¨ã‚ã¨ã„ã†æ„å‘³åˆã„ãŒå¼·ã„ã‚“ã§ã™ãŒï¼ˆç¬‘ï¼‰ã€åƒ•ãŒå®Ÿéš›ã«2013å¹´6æœˆç¾åœ¨webãƒ‡ãƒ¼ã‚¿åˆ†æžï¼†ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ã‚¹ã®å®Ÿå‹™ã§ãƒ„ãƒ¼ãƒ«ãƒ»ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãƒ»ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’åˆ©ç”¨ã—ã¦ã„ã‚‹ã‚‚ã®ã«é™ã£ã¦ã€çµ±è¨ˆå¦ãƒ»æ©Ÿæ¢°å¦ç¿’ç³»ã®åˆ†æžæ‰‹æ³•ã‚’10å€‹æŒ™ã’ã¦ç´¹ä»‹ã—ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚

åŸºæœ¬çš„ã«ã¯ã©ã‚Œã‚‚åƒ•ãŒæˆ¦ç•¥ãƒžãƒ¼ã‚±ãƒ†ã‚£ãƒ³ã‚°éƒ¨é–€ã§å®Ÿå‹™ã¨ã—ã¦è¡Œã£ã¦ã„ã‚‹ã‚¢ãƒ‰ãƒ›ãƒƒã‚¯åˆ†æžå‘ã‘ã®æ‰‹æ³•ã§ã€

åƒ•è‡ªèº«ãŒçŸ¥ã£ã¦ã„ã¦ã‚‚å®Ÿå‹™ã§ã¯ã»ã¨ã‚“ã©ä½¿ã£ã¦ã„ãªã„ã‚‚ã®
ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‰ãªã©ãƒãƒƒã‚¯ã‚¨ãƒ³ãƒ‰ã‚·ã‚¹ãƒ†ãƒ å‘ã‘ã®æ‰‹æ³•
æ©Ÿæ¢°å¦ç¿’ã®è«¸æ‰‹æ³•ã®ãƒãƒƒã‚¯ã‚¨ãƒ³ãƒ‰ã‚·ã‚¹ãƒ†ãƒ å‘ã‘ã®å®Ÿè£…æ–¹æ³•
Deep learningã¨ã‹å··ã§ã¯æœ‰åã§ã‚‚å€‹äººçš„ã«ã¯ã¾ã å®Ÿå‹™ã§ä½¿ã£ãŸã“ã¨ã®ãªã„ã‚‚ã®
ãƒ™ã‚¤ã‚¸ã‚¢ãƒ³ãªã©ãã‚‚ãã‚‚åƒ•ãŒä¸å¾—æ‰‹ãªã‚‚ã®

ãªã©ã¯å¤–ã—ã¦ã‚ã‚Šã¾ã™ã€‚æ‚ªã—ã‹ã‚‰ãšã”äº†æ‰¿ã‚’ã€‚ãªãŠã€åƒ•ã®ä»•äº‹å†…å®¹ãŒå¤‰ã‚ã‚‹åº¦ã«ä»Šå¾Œã“ã®ã‚·ãƒªãƒ¼ã‚ºã¯ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã•ã‚Œã¦ã„ããƒ»ãƒ»ãƒ»äºˆå®šã§ã™ã€ãŸã¶ã‚“ï¼ˆç¬‘ï¼‰ã€‚

ã¡ãªã¿ã«ã€ä»Šå›žã‚‚çµ±è¨ˆå¦çš„ãƒ»æ©Ÿæ¢°å¦ç¿’çš„ãªåŽ³å¯†æ€§ã¯ã‚ã‚‹ç¨‹åº¦åº¦å¤–è¦–ã—ã¦ã€ã‚‚ã®ã™ã”ãå¤§ã–ã£ã±ãªèª¬æ˜Žã«ç•™ã‚ã‚‹ã¤ã‚‚ã‚Šã§ã™ã€‚ç´°ã‹ã„ãƒã‚¤ãƒ³ãƒˆã¯ã¾ãŸæ”¹ã‚ã¦ã€ã¨ã„ã†ã“ã¨ã§ã€‚ãã—ã¦ã€ã©ã‚Œã‚‚R / SPSSãªã‚‰å¤§ä½“ä½¿ãˆã‚‹ã‚‚ã®ã°ã‹ã‚Šã§ã™ã€‚åˆã‚ã¦Rã‚’ä½¿ã†ã¨ã„ã†äººã¯ã€ä»¥å‰ã®è¨˜äº‹ï¼ˆ素性ベクトル＋分類ラベルのテーブルを持ってくる⇒Rを使ってお手軽に機械学習で分類してみるï¼‰ãªã©ã‚’å‚è€ƒã«ã€å®Ÿè¡Œç’°å¢ƒã‚’æº–å‚™ã—ãŸä¸Šã§ãƒˆãƒ©ã‚¤ã—ã¦ã¿ã¦ä¸‹ã•ã„ã€‚

ï¼ˆâ€»åŸºæœ¬çš„ã«ã€Œã©ã‚“ãªæ‰‹æ³•ã‚’ä½¿ã£ã¦ã„ã‚‹ã‹ã€ã€Œã©ã†ã„ã†ãƒ„ãƒ¼ãƒ«ãƒ»ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãƒ»ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’åˆ©ç”¨ã™ã‚Œã°ãã®æ‰‹æ³•ãŒä½¿ãˆã‚‹ã‹ã€ã«ã®ã¿ãƒ•ã‚©ãƒ¼ã‚«ã‚¹ã—ãŸè¨˜äº‹ãªã®ã§ã€åŽ³å¯†æ€§ã«ã‹ã‹ã‚ã‚‹éƒ¨åˆ†ã¯å…¨ã¦åº¦å¤–è¦–ã—ã¦ã„ã¾ã™ã€‚æ‚ªã—ã‹ã‚‰ãšï¼‰

å›žå¸°åˆ†æžï¼ˆç‰¹ã«ç·šå½¢é‡å›žå¸°åˆ†æžï¼‰

çŒ›çƒˆã«å¤§ã–ã£ã±ã«æ›¸ãã¨ã€

å£²ä¸Šé«˜ = a * ãƒ˜ãƒ“ãƒ¼ãƒ¦ãƒ¼ã‚¶ãƒ¼DAU + b * ãƒ©ã‚¤ãƒˆãƒ¦ãƒ¼ã‚¶ãƒ¼DAU + c * å‘¼ã³æˆ»ã—ãƒ¦ãƒ¼ã‚¶ãƒ¼DAU

ã®ã‚ˆã†ã«ä»®ã«æ•°å€¤ãƒ¢ãƒ‡ãƒ«ã‚’ç«‹ã¦ã¦ã€å®Ÿãƒ‡ãƒ¼ã‚¿ã‹ã‚‰é€†ç®—ã—ã¦ãã‚Œãžã‚Œã®ä¿‚æ•°a, b, cã‚’æŽ¨å®šã™ã‚‹ã“ã¨ã§ãƒ¢ãƒ‡ãƒ«ã®å…¨ä½“åƒã‚’æ±‚ã‚ã‚‹æ‰‹æ³•ã®ã“ã¨ã§ã™ã€‚ä¸»ã«DAUã¨ã‹å£²ä¸Šé«˜ã¨ã‹ã€Œä½•ã‹ã¨ä½•ã‹ã‚’è¶³ã—åˆã‚ã›ãŸã‚Šã‹ã‘åˆã‚ã›ã‚‹ã“ã¨ã§å¾—ã‚‰ã‚Œã‚‹ã§ã‚ã‚ã†æ•°å€¤ã€ã®ãƒ¢ãƒ‡ãƒ«åŒ–ã«å‘ã„ã¦ã„ã¾ã™ã€‚

Rã§ã¯ã“ã‚“ãªæ„Ÿã˜ã§å®Ÿè·µã§ãã¾ã™ã€‚ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã¨ã—ã¦ã¯airqualityã‚’ä½¿ã£ã¦ã¾ã™ã€‚ã¡ãªã¿ã«ãƒ—ãƒãƒƒãƒˆã™ã‚‹ã¨ã“ã‚“ãªæ„Ÿã˜ã®ãƒ‡ãƒ¼ã‚¿ã§*1ã€é»’ã„ãƒ—ãƒãƒƒãƒˆã§è¡¨ã•ã‚Œã‚‹ã‚ªã‚¾ãƒ³æ¿ƒåº¦ã‚’èª¬æ˜Žã™ã‚‹ãƒ¢ãƒ‡ãƒ«ã‚’æŽ¢ã™æ„Ÿã˜ã§ã™ã€‚

f:id:TJO:20130610110618p:plain

> data(airquality) # ãƒ‡ãƒ¼ã‚¿èªã¿è¾¼ã¿
> airq<-airquality[,1:4] # æœˆãƒ»æ—¥ä»˜ã®ãƒ‡ãƒ¼ã‚¿ã‚’å¤–ã™
> airq.lm<-lm(Ozone~.,airq) # Ozone = a * Solar.R + b * Wind + c * Temp + dã®ãƒ¢ãƒ‡ãƒ«ã‚’æŽ¨å®šã™ã‚‹
> summary(airq.lm) # çµæžœã‚’è¡¨ç¤ºã™ã‚‹

Call:
lm(formula = Ozone ~ ., data = airq)

Residuals:
    Min      1Q  Median      3Q     Max 
-40.485 -14.219  -3.551  10.097  95.619 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -64.34208   23.05472  -2.791  0.00623 ** 
Solar.R       0.05982    0.02319   2.580  0.01124 *  
Wind         -3.33359    0.65441  -5.094 1.52e-06 ***
Temp          1.65209    0.25353   6.516 2.42e-09 ***
---
Signif. codes:  0 â€˜***â€™ 0.001 â€˜**â€™ 0.01 â€˜*â€™ 0.05 â€˜.â€™ 0.1 â€˜ â€™ 1 

Residual standard error: 21.18 on 107 degrees of freedom
  (42 observations deleted due to missingness)
Multiple R-squared: 0.6059,	Adjusted R-squared: 0.5948 
F-statistic: 54.83 on 3 and 107 DF,  p-value: < 2.2e-16 

> airq.lm<-lm(Ozone~. - 1,airq) # åˆ‡ç‰‡dã‚’é™¤å¤–ã™ã‚‹
> summary(airq.lm)

Call:
lm(formula = Ozone ~ . - 1, data = airq)

Residuals:
    Min      1Q  Median      3Q     Max 
-40.675 -15.446  -5.526  13.479  88.822 

Coefficients:
        Estimate Std. Error t value Pr(>|t|)    
Solar.R  0.06306    0.02387   2.641  0.00948 ** 
Wind    -4.59884    0.48653  -9.452 8.21e-16 ***
Temp     0.98525    0.08739  11.275  < 2e-16 ***
---
Signif. codes:  0 â€˜***â€™ 0.001 â€˜**â€™ 0.01 â€˜*â€™ 0.05 â€˜.â€™ 0.1 â€˜ â€™ 1 

Residual standard error: 21.84 on 108 degrees of freedom
  (42 observations deleted due to missingness)
Multiple R-squared: 0.8383,	Adjusted R-squared: 0.8338 
F-statistic: 186.7 on 3 and 108 DF,  p-value: < 2.2e-16

ã‚ªã‚¾ãƒ³æ¿ƒåº¦ã«ã¯æ°—æ¸©ãŒãƒ—ãƒ©ã‚¹ã®å½±éŸ¿ã‚’ã€é¢¨é€ŸãŒãƒžã‚¤ãƒŠã‚¹ã®å½±éŸ¿ã‚’ä¸Žãˆã¦ã„ã‚‹ã“ã¨ãŒåˆ†ã‹ã‚Šã¾ã™ãã€‚ã¡ãªã¿ã«äº¤äº’ä½œç”¨ã¨ã‹ãƒ¢ãƒ‡ãƒ«é¸æŠžã®å•é¡Œ*2ã¨ã‹ç´°ã‹ã„ç‚¹ã¯ã€ã‚„ã‚„ã“ã—ããªã‚‹ã®ã§ã“ã“ã§ã¯å‰²æ„›ã€‚ã¾ãŸä»Šå›žã¯ã‚„ã‚Šã¾ã›ã‚“ã§ã—ãŸãŒã€predict()é–¢æ•°ã§ãƒ¢ãƒ‡ãƒ«ã«åŸºã¥ã„ãŸäºˆæ¸¬ã‚’è¡Œã†ã“ã¨ã‚‚ã§ãã¾ã™ã€‚

ãªãŠã€Rã‚’ä½¿ã†äººã¯ã“ã®å›žå¸°åˆ†æžã®ã¨ã“ã‚ã§å‡ºã¦ãã‚‹

y ~ x1 + x2 + x3 + ... # å›žå¸°ãƒ¢ãƒ‡ãƒ«

y ~ . # å›žå¸°ãƒ¢ãƒ‡ãƒ«ï¼ˆå…¨éƒ¨å…¥ã‚Šï¼‰

ã®ã‚ˆã†ãªformulaè¨˜æ³•ã«æ…£ã‚Œã¦ãŠãã¨è‰¯ã„ã¨æ€ã„ã¾ã™ã€‚å›žå¸°ãƒ¢ãƒ‡ãƒ«åŠã³formulaè¨˜æ³•ã¯ãã®ä»–ã®é‡è¦ãªç·šå½¢æ¤œå®šãƒ¢ãƒ‡ãƒ«ï¼ˆä¾‹ãˆã°åˆ†æ•£åˆ†æžãªã©ï¼‰ã§ã‚‚ä½¿ã†ã“ã¨ã«ãªã‚‹ã®ã§ã€è¦šãˆã¦ãŠã„ã¦æã¯ãªã„ã§ã™ã€‚

ç‹¬ç«‹æ€§ã®æ¤œå®šï¼ˆã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ãƒ•ã‚£ãƒƒã‚·ãƒ£ãƒ¼ã®æ£ç¢ºç¢ºçŽ‡æ¤œå®šï¼‰

ä½•ã‹æ–½ç–ã‚’æ‰“ã£ãŸéš›ã®KPIã«å¯¾ã™ã‚‹åŠ¹æžœæ¤œè¨¼ã‚’è¡Œã†éš›ã«ã¯å¿…é ˆã§ã™ã€‚ç‰¹ã«A/Bãƒ†ã‚¹ãƒˆã§æ”¹å–„æ–½ç–ãŒã‚³ãƒ³ãƒãƒ¼ã‚¸ãƒ§ãƒ³UUæ•°ã‚’å¢—ã‚„ã—ãŸã‹ã©ã†ã‹èª¿ã¹ãŸã„ï¼ã¨ã„ã†æ™‚ã«ã¯ã€CVRã ã‘è¦‹ã¦ã„ã¦ã‚‚å¾€ã€…ã«ã—ã¦åˆ†æ¯ãŒé•ã£ã¦ã„ã¦ãã®ã¾ã¾ã§ã¯æ¯”è¼ƒã§ããªã„ã‚±ãƒ¼ã‚¹ãŒå¤šã„ã®ã§ã€ã“ã®æ–¹æ³•è«–ã‚’çŸ¥ã£ã¦ã„ã‚‹ã“ã¨ã¯é‡è¦ã§ã™ã€‚

ï¼ˆä»¥å‰ã®ãƒ–ãƒã‚°è¨˜äº‹ã‚‚å‚ç…§ã®ã“ã¨ï¼š「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれないï¼‰

Rã§ã¯chisq.test()é–¢æ•°ã‚„fisher.test()é–¢æ•°ã§å®Ÿè·µã§ãã¾ã™ã€‚ã‚µãƒ³ãƒ—ãƒ«ã¨ã—ã¦ã€æ˜”ã‹ã‚‰ã‚ˆãçŸ¥ã‚‰ã‚Œã¦ã„ã‚‹ã€Œäºˆé˜²æ³¨å°„ã®åŠ¹æžœã®æœ‰ç„¡ã€ã®ãƒ‡ãƒ¼ã‚¿ã‚’ç”¨æ„ã—ã¦ã¿ã¾ã—ãŸã€‚

	ç—…æ°—ã«ã‹ã‹ã‚‰ãªã„	ã‹ã‹ã£ãŸ
æ³¨å°„ã—ãŸ	1625	5
æ³¨å°„ã—ãªã„	1022	11

> x<-matrix(c(1625,5,1022,11),ncol=2,byrow=T) # ãƒ‡ãƒ¼ã‚¿ã‚’ãƒžãƒˆãƒªã‚¯ã‚¹ã¨ã—ã¦ä¸Žãˆã‚‹
> print(x) # ç¢ºèª
     [,1] [,2]
[1,] 1625    5
[2,] 1022   11
> chisq.test(x) # ã‚«ã‚¤äºŒä¹—æ¤œå®š

	Pearson's Chi-squared test with Yates' continuity correction

data:  x 
X-squared = 4.8817, df = 1, p-value = 0.02714 # æœ‰æ„ï¼šäºˆé˜²æ³¨å°„ã«ã¯åŠ¹æžœãŒã‚ã‚‹

> fisher.test(x) # ãƒ•ã‚£ãƒƒã‚·ãƒ£ãƒ¼ã®æ£ç¢ºç¢ºçŽ‡æ¤œå®š

	Fisher's Exact Test for Count Data

data:  x 
p-value = 0.01885 # æœ‰æ„ï¼šäºˆé˜²æ³¨å°„ã«ã¯åŠ¹æžœãŒã‚ã‚‹
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
  1.115982 12.879160 
sample estimates:
odds ratio 
  3.496373

ã€Œäºˆé˜²æ³¨å°„ã«ã¯åŠ¹æžœãŒã‚ã£ãŸã€ã¨ã„ã†çµè«–ã«ãªã£ã¦ã„ã¾ã™ã€‚åŒã˜ã‚ˆã†ã«å¾®å¦™ãªã‚±ãƒ¼ã‚¹ã£ã¦çµæ§‹A/Bãƒ†ã‚¹ãƒˆã§ã¯å¤šã„ã¨æ€ã†ã®ã§ã€çŸ¥ã£ã¦ãŠã„ã¦æã¯ãªã„ã§ã—ã‚‡ã†ã€‚

ä¸»æˆåˆ†åˆ†æž(PCA) / å› ååˆ†æž

ãƒ‡ãƒ¼ã‚¿ãŒã”ã¡ã‚ƒã”ã¡ã‚ƒã—ã¦ã„ã¦ã€ã‚ã‚‹ç¨‹åº¦ã©ã†ã„ã†æ–¹å‘æ€§ã«ãƒ‡ãƒ¼ã‚¿ãŒå‰²ã‚Œã¦ã„ã‚‹ã‹çµžã‚Šè¾¼ã¿ãŸã„ï¼ã¨ã„ã†æ™‚ã«ä½¿ãˆã‚‹æ‰‹æ³•ã§ã™ã€‚ã“ã®2ã¤ã€è‰¯ããã£ãã‚Šã ã¨è¨€ã‚ã‚Œã‚‹ã‚“ã§ã™ãŒå¤§ã¾ã‹ã«è¨€ãˆã°

ãƒ¢ãƒ‡ãƒ«ãªã—ã§ã€å¤šãã®å¤‰æ•°ã‚’å°‘ãªã„å¤‰æ•°ã«é›†ç´„ã™ã‚‹ã®ãŒä¸»æˆåˆ†åˆ†æž
ãƒ¢ãƒ‡ãƒ«ã‚ã‚Šã§ã€å¤šãã®å¤‰æ•°ã‚’å…±é€šå› åã«ã¾ã¨ã‚ã‚‹ã®ãŒå› ååˆ†æž

ã¨ã„ã£ãŸé•ã„ãŒã‚ã‚Šã¾ã™ã€‚ã¨ã‚‚ã‚ã‚Œã€å…¨ä½“ã®å‚¾å‘ã¨ã—ã¦ãƒ‡ãƒ¼ã‚¿ãŒã©ã®æ–¹å‘æ€§ã«å‘ã‹ã£ã¦åˆ†å¸ƒã—ã¦ã„ã‚‹ã‹ã‚’çŸ¥ã‚ŠãŸã„æ™‚ã«ã¯ã©ã¡ã‚‰ã®æ‰‹æ³•ã‚‚éžå¸¸ã«æœ‰ç”¨ã§ã™ã€‚

ä¸»æˆåˆ†åˆ†æžã®ä¾‹ã¨ã—ã¦ã€Rã«ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§å…¥ã£ã¦ã„ã‚‹ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿USArrestsã‚’ç”¨ã„ã¦ã¿ã¾ã™ã€‚ç‰©é¨’ãªå¤‰æ•°åãŒä¸¦ã‚“ã§ã¾ã™ãŒã€ã“ã‚Œã¯1973å¹´ã®å…¨ç±³50å·žã§ã®ä¸»è¦ãªçŠ¯ç½ªã«ã‚ˆã£ã¦é€®æ•ã•ã‚ŒãŸå®¹ç–‘è€…ã®æ•°ã‚’10ä¸‡äººã”ã¨ã®æ•°å—ã«ã—ã¦è¡¨ã—ãŸã‚‚ã®ã§ã™ã€‚

> data(USArrests)
> pc.cr<-princomp(USArrests,cor=T) # princomp()ãŒä¸»æˆåˆ†åˆ†æžã‚’è¡Œã†é–¢æ•°
> biplot(pc.cr)

f:id:TJO:20130610121731p:plain

ç‰©é¨’ãªå·žã¯ã©ã®è¾ºã‹ï¼ŸãŒã“ã®ãƒ—ãƒãƒƒãƒˆã‹ã‚‰åˆ†ã‹ã£ã¦ã—ã¾ã„ã¾ã™ã*3ã€‚ã€‚ã€‚

ä¸€æ–¹ã€å› ååˆ†æžã®ä¾‹ã¨ã—ã¦ã¯こちらのページã®ã‚µãƒ³ãƒ—ãƒ«ã‚’æ‹å€Ÿã™ã‚‹ã“ã¨ã«ã—ã¾ã™ã€‚ã‚ã‚‹å¦æ ¡ã§å¦ç”Ÿã«ã€Œã©ã®æ•™ç§‘ãŒå¥½ãorå«Œã„ï¼Ÿã€ã‚’5æ®µéšŽã§ç”ãˆã¦ã‚‚ã‚‰ã£ãŸãƒ‡ãƒ¼ã‚¿ã ãã†ã§ã™ã€‚

> data <- read.csv("dataset_exploratoryFactorAnalysis.csv")
> data.fac<-factanal(data,factors=3,scores="regression") # factanal()é–¢æ•°ã§å› ååˆ†æžã€‚å› åæ•°ã‚’3ã«è¨å®š
> biplot(data.fac$scores,data.fac$loadings)

f:id:TJO:20130610123137p:plain

æ•™ç§‘ã®å¥½ãå«Œã„ãŒ2ç³»çµ±ã«åã£ã¦ã„ã‚‹ã“ã¨ãŒè¦‹ã¦å–ã‚Œã¾ã™ãã€‚ã¡ãªã¿ã«ã€åŒã˜ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ä¸»æˆåˆ†åˆ†æžã‚’è¡Œã£ã¦ã‚‚ã»ã¼åŒæ§˜ã®çµæžœã«ãªã‚Šã¾ã™ã€‚

ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

å¤§ã–ã£ã±ã«è¨€ãˆã°ã€ã€Œãƒ‡ãƒ¼ã‚¿ã®çµ„ã¿åˆã‚ã›ãŒä¼¼ãŸã‚‚ã®åŒå£«ã‚’ã¾ã¨ã‚ã‚‹ã€åˆ†æžæ–¹æ³•ã§ã™ã€‚ã‚¤ãƒ¡ãƒ¼ã‚¸ã¨ã—ã¦ã¯ã€ã€Œã‚²ãƒ¼ãƒ Aã¨ã‚²ãƒ¼ãƒ Bã‚’ã‚„ã£ã¦ã„ã‚‹äººãŸã¡ã€vs.ã€Œã‚²ãƒ¼ãƒ Cã¨ã‚²ãƒ¼ãƒ Dã‚’ã‚„ã£ã¦ã„ã‚‹äººãŸã¡ã€ã®ã‚ˆã†ã«ã€åˆ©ç”¨ã—ã¦ã„ã‚‹ã‚µãƒ¼ãƒ“ã‚¹ã®çµ„ã¿åˆã‚ã›ã”ã¨ã«ã‚°ãƒ«ãƒ¼ãƒ”ãƒ³ã‚°ã§ãã‚‹ã‚“ã˜ã‚ƒãªã„ã‹ï¼Ÿã¨ã„ã†ã‚±ãƒ¼ã‚¹ã§ã€ãã‚Œã‚’å®Ÿéš›ã«UUãƒ™ãƒ¼ã‚¹ã§åˆ‡ã‚Šåˆ†ã‘ã‚‹æ–¹æ³•è«–ã¨è¨€ã£ã¦è‰¯ã„ã§ã—ã‚‡ã†ã€‚

ãƒ‡ãƒ¼ã‚¿ãŒå°ã•ã‘ã‚Œã°ã€éšŽå±¤çš„ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã¨ã„ã†æ‰‹æ³•ãŒä½¿ãˆã¾ã™ã€‚ä¸Šã®ã€Œã©ã®æ•™ç§‘ãŒå¥½ãorå«Œã„ã€ãƒ‡ãƒ¼ã‚¿ã‚’ãã®ã¾ã¾ä½¿ã†ã¨ã€ã“ã‚“ãªæ„Ÿã˜ã«ãªã‚Šã¾ã™ã€‚

> data <- read.csv("dataset_exploratoryFactorAnalysis.csv")
> data.d<-dist(data) # å€‹ã€…ã®ãƒ‡ãƒ¼ã‚¿é–“ã®ãƒ¦ãƒ¼ã‚¯ãƒªãƒƒãƒ‰è·é›¢ã‚’æ±‚ã‚ã‚‹
> data.cls<-hclust(data.d) # hclust()ãŒéšŽå±¤çš„ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®é–¢æ•°
> plot(data.cls)

f:id:TJO:20130610124153p:plain

ã™ã„ã¾ã›ã‚“ã€å›³ã®ã‚¿ã‚¤ãƒˆãƒ«ãŒã¯ã¿å‡ºã—ã¾ã—ãŸï¼ˆç¬‘ï¼‰ã€‚ã“ã‚“ãªæ„Ÿã˜ã®ãƒ‡ãƒ³ãƒ‰ãƒã‚°ãƒ©ãƒ ï¼ˆæ¨¹çŠ¶å›³ï¼‰ã§ã©ã®æ•™ç§‘ãŒå¥½ãorå«Œã„ï¼Ÿã”ã¨ã«ã‚°ãƒ«ãƒ¼ãƒ—ãŒåˆ†ã‹ã‚Œã¦ã„ãã®ãŒè¦‹ã¦å–ã‚Œã¾ã™ã€‚

ãªãŠã€ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚ºãŒå¤§ãã„æ™‚ã¯hclust()é–¢æ•°ã§ã¯ã•ã°ã‘ãªã„ã“ã¨ãŒå¤šã„ã®ã§ã€kå¹³å‡ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã‚’è¡Œã†kmeans()é–¢æ•°ã‚’ä½¿ã£ãŸæ–¹ãŒç„¡é›£ã§ã™ã€‚ãŸã ã—ãƒ‡ãƒ³ãƒ‰ãƒã‚°ãƒ©ãƒ ã‚’è¡¨ç¤ºã™ã‚‹ã“ã¨ã¯åŸºæœ¬çš„ã«ã¯ã§ããšã€å€‹ã€…ã®ãƒ‡ãƒ¼ã‚¿ã«ã©ã®ã‚¯ãƒ©ã‚¹ã‚¿ã«å‰²ã‚ŠæŒ¯ã‚‰ã‚ŒãŸã‹ã‚’ç¤ºã™ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã ã‘ãŒã¤ãã€ã¨ã„ã†æ„Ÿã˜ã§ã™ã€‚

æ±ºå®šæœ¨ / å›žå¸°æœ¨

å®Ÿéš›ã«UUãƒ™ãƒ¼ã‚¹ã§ã®webãƒ‡ãƒ¼ã‚¿åˆ†æžã§ã¯ã€ã“ã‚ŒãŒä¸€ç•ªäººæ°—ãŒã‚ã‚‹ã¨æ€ã„ã¾ã™ã€‚è¦ã™ã‚‹ã«ã€ä¾‹ãˆã°ã€Œç¿Œæœˆå®šç€oré›¢è„±ã—ãŸã€ã¨è¨€ã£ãŸåˆ†é¡žãƒ©ãƒ™ãƒ«ï¼‹ã€Œã©ã®è¡Œå‹•ã‚’å½“è©²æœŸé–“å†…ã«ã¨ã£ãŸã‹ã€ã¨è¨€ã£ãŸç´ æ€§ãƒ™ã‚¯ãƒˆãƒ«ã«åŸºã¥ã„ã¦ã€Œä½•ãŒå®šç€oré›¢è„±ã¨ã‚’åˆ†ã‘ãŸã‹ï¼ˆã‚¬ãƒãƒ£ã‚’å¼•ã„ãŸã€ä»–ãƒ¦ãƒ¼ã‚¶ãƒ¼ã¨ã¤ãªãŒã£ãŸetc.ï¼‰ã€ã‚’æ¨¹çŠ¶å›³ã®å½¢ã§è¡¨ã™æ‰‹æ³•ã§ã™*4ã€‚

ã“ã‚Œã¯ãƒ‡ãƒ¼ã‚¿ã®è¡¨ç¤ºæ–¹æ³•ãŒç›´æ„Ÿçš„ã§åˆ†ã‹ã‚Šã‚„ã™ã„ãŸã‚ã€å¤šãã®webãƒ‡ãƒ¼ã‚¿åˆ†æžã®ç¾å ´ã§ä½¿ã‚ã‚Œã¦ã„ã¾ã™ã€‚ä¸ã«ã¯å…¨è‡ªå‹•åŒ–ã—ã¦è‡ªå‰ã§ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸åŒ–ã—ã¦èª°ã§ã‚‚ã‚¢ã‚¯ã‚»ã‚¹ã§ãã‚‹ã‚ˆã†ã«ã—ã¦ã„ã‚‹ã¨ã“ã‚ã‚‚ã‚ã‚‹ã‚ˆã†ã§ã™ã€‚

Rã§ã¯ä»¥ä¸‹ã®ã‚ˆã†ãªæ„Ÿã˜ã§ã§ãã¾ã™ã€‚ã“ã‚Œã¾ãŸã‚ã¾ã‚Šæ¥½ã—ããªã„ãƒ‡ãƒ¼ã‚¿ã§ã™ãŒã€Rã«ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§å…¥ã£ã¦ã„ã‚‹ã€Œã‚¿ã‚¤ã‚¿ãƒ‹ãƒƒã‚¯å·ä¹—å®¢ä¹—å“¡ã®ç”Ÿå˜vs.æ»äº¡çŠ¶æ³ã‚’æ§˜ã€…ãªãƒ‡ãƒ¼ã‚¿ã¨ã¨ã‚‚ã«åˆ†é¡žã—ãŸã€ãƒ‡ãƒ¼ã‚¿ã‚’ç”¨ã„ã¦ã„ã¾ã™ã€‚ã“ã“ã§ã¯{mvpart}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ä½¿ç”¨ã—ã¾ã™ã€‚

> data(Titanic)
> z        <- data.frame(Titanic)
> Titanic1 <- data.frame(Class = rep(z[, 1], z[, 5]), Sex = rep(z[, 2], z[, 5]),
+ Age = rep(z[, 3], z[, 5]), Survived = rep(z[, 4], z[, 5]))
> Titanic1.rp<-rpart(Survived~.,Titanic1)
> plot(Titanic1.rp,uniform=T,margin=0.12)
> text(Titanic1.rp,uniform=T,use.n=T,all=F)

f:id:TJO:20130610131216p:plain

è¨ˆç®—ã®ä¾¿å®œä¸Šã‚«ãƒ†ã‚´ãƒªåˆ†ã‘ãŒa, b, cã¨ãªã£ã¦ã—ã¾ã£ã¦ã„ã‚‹ã®ã§ã€ãã‚Œãžã‚ŒãŒä½•ã«å¯¾å¿œã—ã¦ã„ã‚‹ã‹ã¯ç”Ÿãƒ‡ãƒ¼ã‚¿ã‚’è¦‹ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ãªãŠã€ã“ã®ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰ã¯ã€Œå¥³æ€§ã‚‚ã—ãã¯åä¾›ã€ã€Œã‚ˆã‚Šä¸Šç‰ã®èˆ¹å®¤ã®ä¹—å®¢ã€ã»ã©ç”Ÿãæ®‹ã‚Šã‚„ã™ã‹ã£ãŸã€ã¨ã„ã†ãˆã’ã¤ãªã„äº‹å®ŸãŒåˆ†ã‹ã‚Šã¾ã™ã€‚

ã¾ãŸ{mvpart}ä»¥å¤–ã«ã‚‚ä¾‹ãˆã°{C50}ãªã©ã€æ±ºå®šæœ¨ / å›žå¸°æœ¨ã®Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã¯æ•°å¤šãã‚ã‚‹ã®ã§*5ã€è‰²ã€…è©¦ã—ã¦ã¿ã‚‹ã¨è‰¯ã„ã§ã—ã‚‡ã†ã€‚

ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ã‚¿ãƒ¼ãƒžã‚·ãƒ³(SVM)

è¨€ã‚ãšã¨çŸ¥ã‚ŒãŸã€ã‚¹ãƒ‘ãƒ åˆ¤å®šãªã©ã§é‡å®ã•ã‚Œã‚‹éžå¸¸ã«æœ‰åãªæ©Ÿæ¢°å¦ç¿’åˆ†é¡žå™¨ã§ã™ã€‚ä¸€èˆ¬ã«ã¯ã‚¹ãƒ‘ãƒ ãƒ•ã‚£ãƒ«ã‚¿ãªã©ãƒãƒƒã‚¯ã‚¨ãƒ³ãƒ‰ã‚·ã‚¹ãƒ†ãƒ ã§ä½¿ã†ã‚‚ã®ã§ã™ãŒã€ãã®汎化性能ã®é«˜ã•ã‚’ç”Ÿã‹ã—ã¦ä¾‹ãˆã°ã€Œå…ˆæœˆã®UUãŒä»Šæœˆå®šç€oré›¢è„±ã—ãŸã‹å¦ã‹ã¨ã„ã†ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰ã€ä»Šæœˆã®UUãŒæ¥æœˆå®šç€oré›¢è„±ã™ã‚‹ã‹ã©ã†ã‹ã‚’äºˆæ¸¬ã™ã‚‹ã€ãªã‚“ã¦ã“ã¨ã‚‚ã§ãã¾ã™ã€‚

Rã«ã¯SVMã‚’å®Ÿè£…ã—ã¦ã„ã‚‹ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŒã„ãã¤ã‹ã‚ã‚Šã¾ã™ãŒã€ã¾ãšæœ€åˆã«{e1071}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚ã“ã‚Œã¯C++, Pythonãªã©ä»–è¨€èªžã§æœ‰åãªSVMãƒ©ã‚¤ãƒ–ãƒ©ãƒªã¨ã—ã¦çŸ¥ã‚‰ã‚Œã‚‹LIBSVMã®Rç§»æ¤ç‰ˆã§ã€ä»–è¨€èªžã§ã®è¨ˆç®—çµæžœã¨ã®æ•´åˆæ€§ã‚’é‡è¦–ã™ã‚‹ãªã‚‰ã“ã¡ã‚‰ãŒãƒ™ã‚¿ãƒ¼ã€‚ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã¯Rã§ã¯ãƒ‰å®šç•ªã®ã€Œãƒ•ã‚£ãƒƒã‚·ãƒ£ãƒ¼ã®ã‚¢ãƒ¤ãƒ¡ã®ãƒ‡ãƒ¼ã‚¿ã€irisã§ã™ã€‚3ãƒ©ãƒ™ãƒ«ã§åˆ†é¡žã—ã¦ã„ã¾ã™ã€‚

> data(iris)
> attach(iris)
> 
> ## classification mode
> # default with factor response:
> model <- svm(Species ~ ., data = iris) # SVMãƒ¢ãƒ‡ãƒ«æŽ¨å®šã€‚Rã§ã¯ã“ã‚Œã§ã„ã‘ã‚‹
> 
> # alternatively the traditional interface:
> x <- subset(iris, select = -Species)
> y <- Species
> model <- svm(x, y) # ã“ã‚Œã¯LIBSVMã‚ªãƒªã‚¸ãƒŠãƒ«ã‚’æ„è˜ã—ãŸæ›¸å¼
> 
> print(model) # ãƒ¢ãƒ‡ãƒ«ã®è©³ç´°

Call:
svm.default(x = x, y = y)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  radial 
       cost:  1 
      gamma:  0.25 

Number of Support Vectors:  51

> summary(model)

Call:
svm.default(x = x, y = y)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  radial 
       cost:  1 
      gamma:  0.25 

Number of Support Vectors:  51

 ( 8 22 21 )


Number of Classes:  3 

Levels: 
 setosa versicolor virginica



> # test with train data
> pred <- predict(model, x)
> # (same as:)
> pred <- fitted(model)
> 
> # Check accuracy:
> table(pred, y)
            y
pred         setosa versicolor virginica
  setosa         50          0         0
  versicolor      0         48         2
  virginica       0          2        48
> 
> # compute decision values and probabilities:
> pred <- predict(model, x, decision.values = TRUE)
> attr(pred, "decision.values")[1:4,]
  setosa/versicolor setosa/virginica versicolor/virginica
1          1.196203         1.091757            0.6708373
2          1.064664         1.056185            0.8482323
3          1.180892         1.074542            0.6438980
4          1.110746         1.053012            0.6781059
> 
> # visualize (classes by color, SV by crosses): æœ€å¾Œã«å›³ç¤º
> plot(cmdscale(dist(iris[,-5])),
+      col = as.integer(iris[,5]),
+      pch = c("o","+")[1:150 %in% model$index + 1])

f:id:TJO:20130610140422p:plain

ã‚¢ãƒ¤ãƒ¡ã®å„éƒ¨ä½ã®é•·ã•ã®ãƒ‡ãƒ¼ã‚¿ã«åŸºã¥ã„ã¦ã€åˆ†é¡žå¦ä¸Šã®3ç¨®é¡žã”ã¨ã«ç¶ºéº—ã«ãƒ‡ãƒ¼ã‚¿ãŒåˆ†ã‘ã‚‰ã‚Œã‚‹ã“ã¨ãŒè¦‹ã¦å–ã‚Œã¾ã™ãã€‚

ä¸€æ–¹ã€ã“ã‚Œã¾ãŸæœ‰åãª{kernlab}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã¯ã€ä»¥ä¸‹ã®ã‚ˆã†ãªæ„Ÿã˜ã§å®Ÿè¡Œã§ãã¾ã™ã€‚ä¸Šã®ä¾‹ã¨ã¯é•ã£ã¦ã€ã“ã¡ã‚‰ã¯2ãƒ©ãƒ™ãƒ«ã§åˆ†é¡žã—ã¦ã„ã¾ã™ã€‚

> data(iris)
> attach(iris)
> y<-as.matrix(iris[51:150,5])
> iris1<-data.frame(iris[51:150,3:4],y)
> set.seed(0)
> ir.ksvm<-ksvm(y~.,data=iris1)
Using automatic sigma estimation (sigest) for RBF or laplace kernel 
> plot(ir.ksvm,data=iris1[,1:2])

f:id:TJO:20130610140726p:plain

{kernlab}ã®æ–¹ãŒplot()é–¢æ•°ã®ã‚«ã‚¹ã‚¿ãƒžã‚¤ã‚ºãŒå‡ã£ã¦ã„ã¦è¦‹ã‚„ã™ã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ã¡ãªã¿ã«ã€å¤‰ã‚ã£ãŸã¨ã“ã‚ã§ã¯{kernlab}ã«ã¯æ–‡å—åˆ—åˆ†é¡žå‘ã‘ã®æ‰‹æ³•ãŒå®Ÿè£…ã•ã‚Œã¦ã„ã¦ã€ã“ã‚“ãªæ„Ÿã˜ã§è©¦ã›ã¾ã™ã€‚

> data(reuters)
> is(reuters)
[1] "list"    "vector"  "input"   "listI"   "lpinput" "output" 
> tsv <- ksvm(reuters,rlabels,kernel="stringdot",
+             kpar=list(length=5),cross=3,C=10)
> tsv
Support Vector Machine object of class "ksvm" 

SV type: C-svc  (classification) 
 parameter : cost C = 10 

String kernel function.  Type =  spectrum 
 Hyperparameters : sub-sequence/string length =  5 
 Normalized 

Number of Support Vectors : 39 

Objective Function Value : -13.6834 
Training error : 0 
Cross validation error : 0.02381

ã©ã¡ã‚‰ã®ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã‚ã£ã¦ã‚‚ã€predict()é–¢æ•°ã‚‚ã—ãã¯ãã‚Œã«é¡žä¼¼ã—ãŸæž çµ„ã¿ã§ã€å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã«åŸºã¥ã„ã¦äºˆæ¸¬ã™ã‚‹ã“ã¨ãŒå¯èƒ½ã§ã™ã€‚

SVMã¯å®Ÿè£…å‘ã‘ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãƒ»ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ç¾¤ãŒéžå¸¸ã«å……å®Ÿã—ã¦ã„ã¦ã€ä¾‹ãˆã°C++ / Java / Pythonãªã©ã®è¨€èªžã«ã‚‚å¯¾å¿œã™ã‚‹ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŒæ•°å¤šãã‚ã‚Šã¾ã™ã€‚ã‚€ã—ã‚å®Ÿå‹™çš„ã«ã¯ãã¡ã‚‰ã§å®Ÿè£…ã™ã‚‹ã“ã¨ã®æ–¹ãŒå¤šã„ã‹ã‚‚ã—ã‚Œãªã„ã§ã™ã€‚

ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

éžç·šå½¢å›žå¸°åˆ†æžã®ä¸€ç¨®ãªã‚“ã§ã™ãŒã€ã€Œ0 or 1ã«å›žå¸°ã•ã›ã‚‹ã€ã“ã¨ã‹ã‚‰äº‹å®Ÿä¸Šæ©Ÿæ¢°å¦ç¿’ã¨ã—ã¦æ‰±ã‚ã‚Œã‚‹ã“ã¨ãŒå¤šã„ã§ã™ã€‚å®Ÿéš›ã€ã»ã¨ã‚“ã©SVMã¨åŒã˜ãƒŽãƒªã§ä½¿ã†ã‚±ãƒ¼ã‚¹ãŒå°‘ãªããªã„ã‚ˆã†ã«æ„Ÿã˜ã¾ã™ã€‚

ä½¿ã„æ–¹ã¨ã—ã¦ã¯ã€ä¾‹ãˆã°ã€Œå€‹ã€…ã®ãƒ¦ãƒ¼ã‚¶ãƒ¼IDã«å¯¾ã—ã¦ç¿Œæœˆå®šç€ã—ãŸã‚‰1 or ã—ãªã‹ã£ãŸã‚‰0ã€ã‚²ãƒ¼ãƒ Aã‚’ãƒ—ãƒ¬ã‚¤ã—ãŸã‚‰1 or ã—ãªã‹ã£ãŸã‚‰0ã€ã‚²ãƒ¼ãƒ Bã‚’â€¦ã€ã¨ã„ã†æ„Ÿã˜ã§ã‚«ãƒ†ã‚´ãƒªã‚«ãƒ«ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰æˆã‚‹ç´ æ€§ãƒ™ã‚¯ãƒˆãƒ«ã‚’ä½œã‚Šã€ã“ã‚Œã‚’ç¿Œæœˆå®šç€ã—ãŸorã—ãªã„ã‚’åˆ†é¡žãƒ©ãƒ™ãƒ«ã¨ã—ãŸãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ã«ã‹ã‘ã‚‹ã“ã¨ã§ã€ã€Œã©ã®ã‚²ãƒ¼ãƒ ãŒUUã®ç¿Œæœˆå®šç€ã«è²¢çŒ®ã—ãŸã‹ï¼Ÿã€ã‚’ç®—å‡ºã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

ã¨ã„ã†ã“ã¨ã§Rã§ã‚„ã£ã¦ã¿ã¾ã™ã€‚ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã¯ã€以前の記事で用いたtjo_uu_behavior.txtã§ã™ã€‚

> rawData <- read.delim("tjo_uu_behavior.txt")
> partData<-rawData[,2:8] # UserIDã‚«ãƒ©ãƒ ã¨Resultãƒ©ãƒ™ãƒ«ã‚’é™¤å¤–ã™ã‚‹
> partData<-as.matrix(partData) # ãƒžãƒˆãƒªã‚¯ã‚¹å½¢å¼ã«ç›´ã™
> idx<-which(is.na(partData)==T) # NAãŒå…¥ã£ã¦ã„ã‚‹ãƒžãƒˆãƒªã‚¯ã‚¹ã®ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‚’æ±‚ã‚ã‚‹
> partData[idx]<-0 # NAãŒå…¥ã£ã¦ã„ã‚‹ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹å…¨ã¦ã«0ã‚’ä»£å…¥ã™ã‚‹
> partData<-as.data.frame(partData) # ãƒ‡ãƒ¼ã‚¿ãƒ•ãƒ¬ãƒ¼ãƒ å½¢å¼ã«ç›´ã™
> attach(rawData) # å…ƒãƒ‡ãƒ¼ã‚¿ã®å„ã‚«ãƒ©ãƒ ã‚’å‘¼ã³å‡ºã—ã¦ãƒ¡ãƒ¢ãƒªã«å…¥ã‚Œã‚‹
> Data<-cbind(partData,Result) # UserIDã‚«ãƒ©ãƒ ã‚’é™¤åŽ»ã—ã¦NAã‚’0ã«ç›´ã—ãŸã‚‚ã®ã¨Resultãƒ©ãƒ™ãƒ«ã‚’ãã£ã¤ã‘ã‚‹
> detach(rawData) # å…ƒãƒ‡ãƒ¼ã‚¿ã‚’ãƒ¡ãƒ¢ãƒªã‹ã‚‰å¤–ã™
> Data.glm<-glm(Result~.,data=Data,family="binomial")
# ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ï¼š"binomial"ã‚’æŒ‡å®šã™ã‚‹
> summary(Data.glm)

Call:
glm(formula = Result ~ ., family = "binomial", data = Data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.6771  -0.8263  -0.5952   0.2374   2.2293  

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -0.89916    0.06209 -14.483  < 2e-16 ***
post.view       -0.74178    0.14061  -5.275 1.33e-07 ***
post.submit      4.45451    0.51088   8.719  < 2e-16 ***
photo.submit     2.71624    0.30541   8.894  < 2e-16 ***
comment.view    -1.49874    0.28597  -5.241 1.60e-07 ***
comment.submit  16.46523  438.81887   0.038    0.970    
search          16.46523  403.65465   0.041    0.967    
gps.on          -0.09124    0.33068  -0.276    0.783    
---
Signif. codes:  0 â€˜***â€™ 0.001 â€˜**â€™ 0.01 â€˜*â€™ 0.05 â€˜.â€™ 0.1 â€˜ â€™ 1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2769.5  on 2200  degrees of freedom
Residual deviance: 2192.1  on 2193  degrees of freedom
AIC: 2208.1

Number of Fisher Scoring iterations: 14

> exp(Data.glm$coefficients)[-1] # ã©ã®å¤‰æ•°ã®å¯„ä¸Žåº¦ãŒå¼·ã„ã‹ã‚’å‡ºã™
     post.view    post.submit   photo.submit   comment.view 
  4.762663e-01   8.601370e+01   1.512329e+01   2.234122e-01 
comment.submit         search         gps.on 
  1.415002e+07   1.415002e+07   9.127984e-01

post.submitãŒä¸€ç•ªè²¢çŒ®åº¦ã®é«˜ã„ã‚¢ã‚¯ã‚·ãƒ§ãƒ³ã ã¨ã„ã†ã“ã¨ãŒåˆ†ã‹ã‚Šã¾ã™ã€‚ã¡ãªã¿ã«SVMã§ã‚‚åŒã˜ã‚ˆã†ã«å¤‰æ•°ã”ã¨ã®è²¢çŒ®åº¦ã‚’ç®—å‡ºã™ã‚‹ã“ã¨ã¯ã§ãã¾ã™ãŒã€Rã ã¨æ‰‹é–“ãŒã‹ã‹ã‚‹ã‚ˆã†ã§ã™*6ã€‚

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ

è¿‘å¹´æ€¥é€Ÿã«åºƒã¾ã£ã¦ã„ã‚‹ã€æ©Ÿæ¢°å¦ç¿’åˆ†é¡žå™¨ã§ã™ã€‚å®Ÿã¯ãƒ™ãƒ¼ã‚¹ã¯ãŸã ã®æ±ºå®šæœ¨ / å›žå¸°æœ¨ãªã‚“ã§ã™ãŒã€ã“ã‚Œã‚’ãƒ–ãƒ¼ãƒˆã‚¹ãƒˆãƒ©ãƒƒãƒ—ãƒ»ãƒªã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°æ³•ã¨çµ„ã¿åˆã‚ã›ã‚‹ã“ã¨ã§é«˜é€Ÿã‹ã¤æ£ç¢ºã«åˆ†é¡žçµæžœãŒå¾—ã‚‰ã‚Œã‚‹ã‚ˆã†ã«ã—ãŸã‚‚ã®ã§ã™ã€‚

ã—ã‹ã‚‚ã€æ±ºå®šæœ¨ã®ãƒãƒ£ãƒ¼ãƒ ãƒã‚¤ãƒ³ãƒˆã ã£ãŸã€Œã©ã®å¤‰æ•°ãŒé‡è¦ã‹ï¼Ÿã€ã‚’ï¼ˆSVMã¨ã¯ç•°ãªã‚Šï¼‰ã‚¹ãƒˆãƒ¬ãƒ¼ãƒˆã«æ±‚ã‚ã‚‹ã“ã¨ã‚‚å¯èƒ½ã§ã™*7ã€‚ãªã®ã§ã€ã€Œç‰¹ã«æœªæ¥äºˆæ¸¬ã—ãŸã„ã‚ã‘ã§ã¯ãªã„ã‘ã©ã©ã®ã‚µãƒ¼ãƒ“ã‚¹ã‚’ä½¿ã£ã¦ã‚‚ã‚‰ã†ã¨ç¿Œæœˆå®šç€ã™ã‚‹ãƒ¦ãƒ¼ã‚¶ãƒ¼ãŒå¢—ãˆã‚‹ã‹ï¼Ÿã€ã¿ãŸã„ãªãƒ‹ãƒ¼ã‚ºã«ã¯ã´ã£ãŸã‚Šã®æ‰‹æ³•ã ã¨ã‚‚è¨€ãˆã¾ã™ã€‚

Rã§ã¯{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ä½¿ã„ã¾ã™ã€‚ãƒ‡ãƒ¼ã‚¿ã¯ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ã§åˆ©ç”¨ã—ãŸtjo_uu_behavior.txtã‚’å¼•ãç¶šãç”¨ã„ã¾ã™ã€‚

> Data.rf<-randomForest(Result~.,data=Data) # æ›¸å¼ã¯å›žå¸°åˆ†æžã¨åŒã˜
> Data.rf$importance
# å¤‰æ•°é‡è¦åº¦ã‚’è¡¨ç¤ºã™ã‚‹
               MeanDecreaseGini
post.view            15.7243759
post.submit         104.0053984
photo.submit         44.4120623
comment.view         12.5603316
comment.submit        6.6833694
search                8.5228646
gps.on                0.2429852

SVMã¨åŒã˜ãã€post.submitãŒæœ€ã‚‚è²¢çŒ®åº¦ã®é«˜ã„ã‚¢ã‚¯ã‚·ãƒ§ãƒ³ã§ã‚ã‚‹ã¨ã„ã†çµæžœã«ãªã‚Šã¾ã—ãŸã€‚

ãŸã ã—ã€ã“ã®ã€Œå¤‰æ•°é‡è¦åº¦ã€(importance)ã¯ãã®ã€Œå‘ãã€ï¼ˆå®šç€ã•ã›ãŸoré›¢è„±ã•ã›ãŸï¼‰ã¾ã§ã¯åˆ†ã‹ã‚‰ãªã„ã®ã§ã€åˆ¥ã®æ–¹æ³•ã¨çµ„ã¿åˆã‚ã›ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ã¾ãŸã€è¨ˆç®—è² è·ãŒçµæ§‹ã§ã‹ãã¦ã€ã€Œãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ãªã‚‰å›žã‚‹ã‘ã©ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã ã¨å›žã‚‰ãªã„ã€ã“ã¨ã‚‚ã‚ã‚Šã¾ã™ã€‚è¦æ³¨æ„ã€‚

ãªãŠã€å½“ç„¶ãªãŒã‚‰ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã§ã‚‚SVMåŒæ§˜ã«predict()é–¢æ•°ã‚’ç”¨ã„ã¦ã€Œäºˆæ¸¬ã€ã‚’è¡Œã†ã“ã¨ãŒå¯èƒ½ã§ã™ã€‚ãƒ‡ãƒ¼ã‚¿ã®æ€§è³ªæ¬¡ç¬¬ã§SVMã¨ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã¨ã§äºˆæ¸¬ç²¾åº¦ãŒå¤‰ã‚ã‚‹ã“ã¨ãŒã‚ã‚‹ã®ã§ã€äº‹å‰ã«æ€§èƒ½æ¯”è¼ƒã—ã¦ãŠãã“ã¨ã‚’ãŠè–¦ã‚ã—ã¾ã™ã€‚

ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžï¼ˆãƒã‚¹ã‚±ãƒƒãƒˆåˆ†æžãƒ»ç›¸é–¢ãƒ«ãƒ¼ãƒ«æŠ½å‡ºï¼‰

ã„ã‚ã‚†ã‚‹ã€Œãƒã‚¹ã‚±ãƒƒãƒˆåˆ†æžã€ã§ã™ã€‚ã‚¢ãƒ¡ãƒªã‚«ã§æœ‰åã«ãªã£ãŸã€Œãƒ“ãƒ¼ãƒ«ã¨ã‚ªãƒ ãƒ„ã®ã¾ã¨ã‚è²·ã„ã€ã®ä¾‹ã®ã‚ˆã†ã«ã€å¾“æ¥ã¯ã©ã¡ã‚‰ã‹ã¨ã„ã†ã¨POSãªã©å°å£²åº—ã§ã®é¡§å®¢è³¼è²·ãƒ‡ãƒ¼ã‚¿ã«ç”¨ã„ã‚‰ã‚Œã‚‹ã“ã¨ãŒå¤šã‹ã£ãŸã‚ˆã†ã§ã™ã€‚

ã¨ã“ã‚ãŒã€webãƒ‡ãƒ¼ã‚¿åˆ†æžã®ä¸–ç•Œã§ã‚‚ä¾‹ãˆã°ã€Œç™»éŒ²ç¿Œæœˆã‚‚æ¥è¨ªã—ã¦ãã‚ŒãŸãƒ¦ãƒ¼ã‚¶ãƒ¼ã§ã€ã‚³ãƒ³ãƒ†ãƒ³ãƒ„Aã‚’è¦‹ã¦ã„ãŸäººã¯ä»–ã«ã‚³ãƒ³ãƒ†ãƒ³ãƒ„B-Zã®ã†ã¡ã©ã‚Œã‚’ä¸€ç•ªå¤šãè¦‹ã¦ã„ãŸã‹ï¼Ÿã€ã¿ãŸã„ãªã€ã€Œã‚µãƒ¼ãƒ“ã‚¹ã‚’åˆã‚ã›æŠ€ã§æä¾›ã™ã‚‹ã“ã¨ã§ã‚ˆã‚Šãƒªãƒ”ãƒ¼ãƒˆã—ã‚„ã™ããªã‚‹ã€è¡Œå‹•ãƒ‘ã‚¿ãƒ¼ãƒ³ã®æŠ½å‡ºã«ä½¿ã‚ã‚Œã‚‹ã“ã¨ãŒå¢—ãˆã¦ãã¦ã„ã‚‹ã‚ˆã†ã§ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã€ã“ã‚Œã‚‚Rã§ã‚„ã£ã¦ã¿ã¾ã™ã€‚{arules}{arulesViz}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ä½¿ã„ã¾ã—ã‚‡ã†ã€‚ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã¯ã€ãƒ™ã‚¿ã§ã™ãŒGroceriesã§ã™ã€‚

> data(Groceries)
> data.ap<-apriori(Groceries)
# Aprioriã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³ãƒ»ãƒ«ãƒ¼ãƒ«ã‚’ç®—å‡ºã™ã‚‹

parameter specification:
 confidence minval smax arem  aval originalSupport support minlen
        0.8    0.1    1 none FALSE            TRUE     0.1      1
 maxlen target   ext
     10  rules FALSE

algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
sorting and recoding items ... [8 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 done [0.00s].
writing ... [0 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].

> data.ap<-apriori(Groceries,parameter=list(support=0.001)) 
# ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã ã¨æ¡ä»¶ãŒåŽ³ã—éŽãŽã¦ãƒ«ãƒ¼ãƒ«ãŒå‡ºã¦ã“ãªã„ã®ã§ã€æ¡ä»¶ã‚’ç·©ãã—ã¦ã¿ã‚‹

parameter specification:
 confidence minval smax arem  aval originalSupport support minlen
        0.8    0.1    1 none FALSE            TRUE   0.001      1
 maxlen target   ext
     10  rules FALSE

algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
sorting and recoding items ... [157 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 4 5 6 done [0.01s].
writing ... [410 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].

> summary(data.ap) # ã‚µãƒžãƒªãƒ¼ã‚’è¦‹ã¦ã¿ã‚‹
set of 410 rules

rule length distribution (lhs + rhs):sizes
  3   4   5   6 
 29 229 140  12 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  3.000   4.000   4.000   4.329   5.000   6.000 

summary of quality measures:
    support           confidence          lift       
 Min.   :0.001017   Min.   :0.8000   Min.   : 3.131  
 1st Qu.:0.001017   1st Qu.:0.8333   1st Qu.: 3.312  
 Median :0.001220   Median :0.8462   Median : 3.588  
 Mean   :0.001247   Mean   :0.8663   Mean   : 3.951  
 3rd Qu.:0.001322   3rd Qu.:0.9091   3rd Qu.: 4.341  
 Max.   :0.003152   Max.   :1.0000   Max.   :11.235  

mining info:
      data ntransactions support confidence
 Groceries          9835   0.001        0.8

> data.ap2<-subset(data.ap,subset=size(items)<4)
# å¤šéŽãŽã‚‹ã®ã§ã€è©¦ã—ã«4ã¤æœªæº€ã®çµ„ã¿åˆã‚ã›ã«çµžã‚‹
> summary(data.ap2)
set of 29 rules

rule length distribution (lhs + rhs):sizes
 3 
29 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      3       3       3       3       3       3 

summary of quality measures:
    support           confidence          lift       
 Min.   :0.001017   Min.   :0.8000   Min.   : 3.131  
 1st Qu.:0.001118   1st Qu.:0.8125   1st Qu.: 3.261  
 Median :0.001220   Median :0.8462   Median : 3.613  
 Mean   :0.001473   Mean   :0.8613   Mean   : 4.000  
 3rd Qu.:0.001729   3rd Qu.:0.9091   3rd Qu.: 4.199  
 Max.   :0.002542   Max.   :1.0000   Max.   :11.235  

mining info:
      data ntransactions support confidence
 Groceries          9835   0.001        0.8

> inspect(head(sort(data.ap2,by="support"),n=10))
# ä¸Šä½10ä»¶ã®çµ„ã¿åˆã‚ã›ã‚’å‡ºã—ã¦ã¿ã‚‹
   lhs                 rhs                    support confidence      lift
1  {hamburger meat,                                                      
    curd}           => {whole milk}       0.002541942  0.8064516  3.156169
2  {herbs,                                                               
    rolls/buns}     => {whole milk}       0.002440264  0.8000000  3.130919
3  {tropical fruit,                                                       
    herbs}          => {whole milk}       0.002338587  0.8214286  3.214783
4  {liquor,                                                              
    red/blush wine} => {bottled beer}     0.001931876  0.9047619 11.235269
5  {yogurt,                                                              
    rice}           => {other vegetables} 0.001931876  0.8260870  4.269346
6  {herbs,                                                               
    shopping bags}  => {other vegetables} 0.001931876  0.8260870  4.269346
7  {pork,                                                                 
    butter milk}    => {other vegetables} 0.001830198  0.8571429  4.429848
8  {yogurt,                                                              
    cereals}        => {whole milk}       0.001728521  0.8095238  3.168192
9  {meat,                                                                 
    margarine}      => {other vegetables} 0.001728521  0.8500000  4.392932
10 {hamburger meat,                                                       
    bottled beer}   => {whole milk}       0.001728521  0.8095238  3.168192

> plot(data.ap2,method="graph",control=list(type="items",arrowSize=0.1),interactive=T)
Loading required package: tcltk
Tcl/Tkã‚¤ãƒ³ã‚¿ãƒ¼ãƒ•ã‚§ãƒ¼ã‚¹ã®ãƒãƒ¼ãƒ‰ä¸   çµ‚äº†æ¸ˆ
# ã‚¤ãƒ³ã‚¿ãƒ©ã‚¯ãƒ†ã‚£ãƒ–ãªã‚°ãƒ©ãƒ•è¡¨ç¤ºã«ã—ã¦ã¿ã‚‹

f:id:TJO:20130610151829p:plain

ã€ŒãƒŸãƒ«ã‚¯ã€ã¨ã€Œãã®ä»–é‡Žèœã€ãŒãˆã‚‰ãå¼·ã„ã§ã™ãï¼ˆç¬‘ï¼‰ã€‚ã€‚ã€‚å½“ãŸã‚Šå‰ã£ã¡ã‚ƒå½“ãŸã‚Šå‰ãªã‚“ã§ã™ãŒã€‚ã“ã†ã„ã†å°å£²ç³»ã®ãƒ‡ãƒ¼ã‚¿ã ã¨æ„å¤–æ€§ã®ã‚ã‚‹ç™ºè¦‹ã£ã¦å¤šããªã„ã‚“ã§ã—ã‚‡ã†ãŒã€ã“ã‚ŒãŒwebãƒ‡ãƒ¼ã‚¿åˆ†æžã ã¨æƒ³åƒã ã«ã—ãªã‹ã£ãŸã‚ˆã†ãªçµæžœãŒå¾—ã‚‰ã‚Œã‚‹ã“ã¨ã‚‚ã‚ã‚‹ã®ã§ã€å€‹äººçš„ã«ã¯webãƒ‡ãƒ¼ã‚¿åˆ†æžå‘ã‘ã«å¼·ãæŽ¨ã—ãŸã„æ‰‹æ³•ã®ä¸€ã¤ã§ã™ã€‚

ã¨ã“ã‚ã§ã€ã“ã®{arules}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ç”¨ã„ã¦ã„ã‚‹ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³ãƒ»ãƒ«ãƒ¼ãƒ«ã®ç®—å‡ºæ–¹æ³•ã¯ã€å®Ÿã¯ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‰ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®ãã‚Œã¨ã‚ˆãä¼¼ã¦ã„ã¾ã™ã€‚å®Ÿéš›ã€{recommenderlab}ã¨ã„ã†ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‰ã®ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã¯ã€{arules}ã‚’ä¾å˜ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã¨ã—ã¦æŒ‡å®šã—ã¦ã„ã‚‹ã‚“ã§ã™ãã€‚ãªã®ã§ã€ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžã‚’è¡Œã†ã“ã¨ã§ã€ã‚¢ãƒ‰ãƒ›ãƒƒã‚¯ã§æ‰‹å‹•ã§ãƒ¬ã‚³ãƒ¡ãƒ³ãƒ‰ã—ã¦ã„ã‚‹ã“ã¨ã«ãªã‚‹ã¨ã‚‚è¨€ãˆãã†ã§ã™ã€‚

è¨ˆé‡æ™‚ç³»åˆ—åˆ†æž

å®Ÿã¯ã“ã‚ŒãŒwebãƒ‡ãƒ¼ã‚¿åˆ†æžæ¥ç•Œã«ã¨ã£ã¦ã¯é¬¼é–€ã€‚åƒ•ã®çŸ¥ã‚‹é™ã‚Šã§ã¯ã€ã“ã®è¨ˆé‡æ™‚ç³»åˆ—åˆ†æžã‚’ç©æ¥µçš„ã«ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ã‚¹ã®å®Ÿå‹™ã«æŠ•å…¥ã—ã¦ã„ã‚‹ã¨ã“ã‚ã¯ã¾ã æ®†ã©ãªã„ã‹ã‚‰ã§ã™ã€‚

ä»¥å‰ã®ãƒ–ãƒã‚°è¨˜äº‹ï¼ˆ見せかけの回帰についてï¼‰ã§ã‚‚æ•°ç†çš„ãªåŸºç¤Žã‚‚å«ã‚ã¦ãƒãƒ©ã£ã¨è§¦ã‚Œã¾ã—ãŸãŒã€æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã‚’ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã—ã¦äºˆæ¸¬ã«å½¹ç«‹ã¦ã‚‹ã“ã¨ã¯éžå¸¸ã«æœ‰ç›Šã§ã™ã€‚ä»Šå›žã®è¨˜äº‹ã§ã¯ã€ã‚ãã¾ã§ã‚‚ã•ã‚ã‚Šã®éƒ¨åˆ†ã ã‘ã¡ã‚‡ã‚ã£ã¨ã‚„ã£ã¦ã¿ã‚‹ã“ã¨ã«ã—ã¾ã™ã€‚

ã¾ãšå˜å¤‰é‡æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã«ã¤ã„ã¦ã€‚Rã§ã¯{forecast}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŒä¾¿åˆ©ã§ã™ã€‚

> x.ts<-arima.sim(list(order=c(2,1,1),ar=c(0.2,-0.1),ma=0.1),n=200) # ARIMA(2,1,1)éŽç¨‹ã‚’200ç‚¹ç™ºç”Ÿã•ã›ã‚‹
> x.arima<-auto.arima(x.ts,trace=T,stepwise=T) # ç™ºç”Ÿã•ã›ãŸx.tsç³»åˆ—ã®ARIMAæ¬¡æ•°ã‚’æŽ¨å®šã™ã‚‹

 ARIMA(2,1,2) with drift         : 572.951
 ARIMA(0,1,0) with drift         : 596.7827
 ARIMA(1,1,0) with drift         : 574.314
 ARIMA(0,1,1) with drift         : 570.8908
 ARIMA(1,1,1) with drift         : 571.74
 ARIMA(0,1,2) with drift         : 572.8034
 ARIMA(1,1,2) with drift         : 572.3238
 ARIMA(0,1,1)                    : 569.8922
 ARIMA(1,1,1)                    : 570.9663
 ARIMA(0,1,0)                    : 596.6043
 ARIMA(0,1,2)                    : 571.7132
 ARIMA(1,1,2)                    : 571.3888

 Best model: ARIMA(0,1,1) # æ„å¤–ã¨ARæ¬¡æ•°ã¨MAæ¬¡æ•°ã®æŽ¨å®šã¯æ›–æ˜§ã ã£ãŸã‚Šã™ã‚‹

> plot(forecast(x.arima,level=c(50,95),h=50)) # forecast()é–¢æ•°ã§æœªæ¥äºˆæ¸¬

f:id:TJO:20130610144506p:plain

ã¾ãŸã€å¤šå¤‰é‡æ™‚ç³»åˆ—ãƒ¢ãƒ‡ãƒ«ã§ã‚ã‚‹VARãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ãˆã°ã€äº’ã„ã«å½±éŸ¿ã‚’åŠã¼ã—åˆã†ã¨äºˆæƒ³ã•ã‚Œã‚‹è¤‡æ•°ã®æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿åŒå£«ã®ã‚¤ãƒ³ã‚¿ãƒ©ã‚¯ã‚·ãƒ§ãƒ³ã‚’è€ƒæ…®ã—ã¦ã€åŒæ™‚ã«ãã‚Œã‚‰ã®è¤‡æ•°ã®æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹æœªæ¥äºˆæ¸¬ã‚’è¡Œã†ã“ã¨ã‚‚ã§ãã¾ã™ã€‚ã“ã“ã§ã¯{vars}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ç”¨ã„ã¾ã™ã€‚ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã¯åŒæ¢±ã®Canadaã§ã™ã€‚

> data(Canada)
> VARselect(Canada) # VARãƒ¢ãƒ‡ãƒ«æ¬¡æ•°ã‚’æŽ¨å®š
$selection
AIC(n)  HQ(n)  SC(n) FPE(n) 
     3      2      1      3 

$criteria
                  1            2            3            4           5            6            7            8
AIC(n) -6.191599834 -6.621627919 -6.709002047 -6.512701777 -6.30174681 -6.194596715 -6.011720944 -6.054479536
HQ(n)  -5.943189052 -6.174488511 -6.063134014 -5.668105118 -5.25842152 -4.952542805 -4.570938409 -4.414968375
SC(n)  -5.568879538 -5.500731387 -5.089929279 -4.395452772 -3.68632157 -3.080995238 -2.399943231 -1.944525586
FPE(n)  0.002048239  0.001337721  0.001237985  0.001534875  0.00195439  0.002278812  0.002924622  0.003073249
                  9           10
AIC(n) -5.912126222 -5.867271844
HQ(n)  -4.073886435 -3.830303432
SC(n)  -1.303996035 -0.760965421
FPE(n)  0.004015164  0.004961704

> Canada.var<-VAR(Canada,p=3) # VARãƒ¢ãƒ‡ãƒ«ã‚’æŽ¨å®š
> Canada.pred<-predict(Canada.var,n.ahead=20,ci=0.95) # 20æœŸå…ˆã¾ã§çŸæœŸäºˆæ¸¬
> plot(Canada.pred)

f:id:TJO:20130610145312p:plain

4ã¤ã®æ™‚ç³»åˆ—ãã‚Œãžã‚Œã®æœªæ¥äºˆæ¸¬ãŒå¾—ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚åŸºæœ¬çš„ã«webãƒ‡ãƒ¼ã‚¿åˆ†æžã«ãŠã‘ã‚‹KPIã‚‚ä»–ã®å¤‰é‡ã‹ã‚‰ã®å½±éŸ¿ã‚’å—ã‘ã‚„ã™ã„ã®ã§ã€ã§ãã‚‹ã ã‘VARãƒ¢ãƒ‡ãƒ«ä»¥ä¸‹å¤šå¤‰é‡æ™‚ç³»åˆ—ãƒ¢ãƒ‡ãƒ«ã‚’ç”¨ã„ãŸæ–¹ãŒè‰¯ã„ã¨åƒ•ã¯è€ƒãˆã¦ã„ã¾ã™ã€‚

ã“ã‚Œä»¥å¤–ã«ã‚‚ã€å› æžœæ€§æ¤œå®šã‚„è¦‹ã›ã‹ã‘ã®å›žå¸°ã€å…±å’Œåˆ†ã‚„GARCHã€ã¯ãŸã¾ãŸãƒžãƒ«ã‚³ãƒ•è»¢æ›ãƒ¢ãƒ‡ãƒ«ã¨ã„ã£ãŸæ§˜ã€…ãªæ¦‚å¿µãƒ»æ‰‹æ³•ãŒè¨ˆé‡æ™‚ç³»åˆ—åˆ†æžã«ã¯ã‚ã‚Šã¾ã™ãŒã€ãã‚Œã‚‰ã¯ã¾ãŸæ”¹ã‚ã¦ç´¹ä»‹ã—ã¾ã™ã‚ˆã¨ã„ã†ã“ã¨ã§ã€‚

ãŠã‚ã‚Šã«

ä»Šå›žã¯å…¨éƒ¨Rãƒ¡ã‚¤ãƒ³ã§ã‚„ã£ã¦ã¿ã¾ã—ãŸãŒã€å¤§åŠã®æ‰‹æ³•ã¯SPSSãªã©ã§ã‚‚å®Ÿè£…ã•ã‚Œã¦ã„ã¾ã™*8ã€‚ã¾ãŸã€å®Ÿéš›ã«ãƒãƒƒã‚¯ã‚¨ãƒ³ãƒ‰ã‚·ã‚¹ãƒ†ãƒ ã«çµ„ã¿è¾¼ã‚“ã ã‚Šè‡ªå‹•åŒ–ã™ã‚‹ã“ã¨ã‚’è€ƒãˆã‚Œã°ã€Pythonãªã©ã§çµ„ã‚ãŸæ–¹ãŒè‰¯ã„ã¨ã„ã†éƒ¨åˆ†ã‚‚ã‚ã‚Šã¾ã™ã€‚å‹¿è«–ã€æ—¢å˜ã®ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãƒ»ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã¯é£½ããŸã‚‰ãšã€è‡ªä¸»ç ”ç©¶é–‹ç™ºã™ã‚‹å¿…è¦ã«è¿«ã‚‰ã‚Œã‚‹ã“ã¨ã‚‚ã‚ã‚‹ã§ã—ã‚‡ã†ã€‚

ã¨ã„ã†ã‚ã‘ã§ã“ã®è¨˜äº‹ã‚’ã€Œå…¥å£ã€ã¨ã—ã¦ã€ã‚ãã‚‹ã‚ãwebãƒ‡ãƒ¼ã‚¿åˆ†æžï¼†ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ã‚¹ã®ä¸–ç•Œã«è¸ã¿å…¥ã£ã¦ãã‚Œã‚‹äººãŒä¸€äººã§ã‚‚å¢—ãˆã‚Œã°å¬‰ã—ã„ã§ã™ã€‚

ä»¥å‰ã®è¨˜äº‹ï¼ˆHiveで生テーブルを取ってくる→素性ベクトル＋分類ラベルのテーブルに直すï¼‰ã‚’ã”å‚ç…§ã®ã“ã¨ã€‚ã“ã‚ŒãŒãªã„ã¨ã€ç‰¹ã«Rã®å ´åˆã¯æ©Ÿæ¢°å¦ç¿’ã¯ã©ã®æ‰‹æ³•ã§ã‚ã£ã¦ã‚‚ã‚„ã‚Šã¥ã‚‰ã„ã§ã™ã€‚

ã¡ãªã¿ã«ã€å®Ÿã¯Hadoop + Hiveã§ã‚ã£ã¦ã‚‚ç›´æŽ¥ã€Œç´ æ€§ãƒ™ã‚¯ãƒˆãƒ«ï¼‹åˆ†é¡žãƒ©ãƒ™ãƒ«ã€ã«ãªã‚‹ã‚ˆã†ãªãƒ‡ãƒ¼ã‚¿ã‚’æŠ½å‡ºã™ã‚‹ã“ã¨ãŒå¯èƒ½ã§ã™*9ã€‚ã“ã®å ´åˆã€ã‚¨ã‚¯ã‚¹ãƒãƒ¼ãƒˆã—ãŸãƒ‡ãƒ¼ã‚¿ã‚’ç›´æŽ¥Rã«èªã¿è¾¼ã¾ã›ã‚‹ã ã‘ã§ãƒ‡ãƒ¼ã‚¿åˆ†æžã§ãã‚‹ã®ã§ä¾¿åˆ©ã§ã™ã€‚

ã¨ã“ã‚ã§ã€ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžã®ãƒ‡ãƒ¼ã‚¿ã¯ã‚°ãƒ©ãƒ•ç†è«–ã®ã‚°ãƒ©ãƒ•ã¨ã—ã¦æ‰±ã†ã“ã¨ã‚‚ã§ãã¾ã™ã€‚ã“ã‚Œã«é™ã‚‰ãšã€ä»Šå¾Œã¯webãƒ‡ãƒ¼ã‚¿åˆ†æžã§ã‚‚ã‚°ãƒ©ãƒ•ç†è«–ãŒæ´»èºã™ã‚‹å ´é¢ã¯å¢—ãˆã¦ãã‚‹ã ã‚ã†ã€‚ã€‚ã€‚ã¨ã„ã†ã®ãŒåƒ•ã®è¦³æ¸¬ã§ã™ã€‚

ã¶ã£ã¡ã‚ƒã‘åƒ•ã¯ã“ã“ã¯ç´ äººãªã®ã§*11ã€ã¯ã£ãã‚Šè¨€ã£ã¦Rã®ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ç¾¤ã‚’ä½¿ã„ãªãŒã‚‰ã ã¾ã—ã ã¾ã—ç‹¬å¦ã—ã¦ã„ã‚‹ãƒ¬ãƒ™ãƒ«ã§ã™ï¼ˆç¬‘ï¼‰ã€‚ã¨ã¯è¨€ãˆã€ä¾‹ãˆã°ãƒžãƒ«ã‚³ãƒ•éŽç¨‹ã£ã½ãã€Œã¨ã«ã‹ãç›´å‰ã¨ç¾åœ¨ã¨ã®ã‚¹ãƒ†ãƒ¼ã‚¿ã‚¹ã®é·ç§»ã«ã—ã‹èˆˆå‘³ã‚’æŒãŸãªã„ã€ã¨ã‹ä»®å®šã™ã‚‹ã¨ã€webãƒ‡ãƒ¼ã‚¿ã‹ã‚‰ã§ã‚‚ã¡ã‚‡ã£ã¨ã—ãŸã‚°ãƒ©ãƒ•æ§‹é€ ã‚’æ§‹æˆã™ã‚‹ã“ã¨ãŒã§ãã‚‹ã®ã§ã€è‰²ã€…å¿œç”¨ã§ãã‚‹ã‚“ã˜ã‚ƒãªã„ã‹ã¨æ€ã£ã¦ã¾ã™ã€‚

R seminar on igraph - supplementary information

ã¡ãªã¿ã«{igraph}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã¯Google ãƒšãƒ¼ã‚¸ãƒ©ãƒ³ã‚¯ã‚’æ§‹æˆã™ã‚‹ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®ä¸€ã¤ã§ã‚ã‚‹Page Rankã‚’ç®—å‡ºã™ã‚‹ã“ã¨ãŒã§ãã€{igraph0} + {linkcomm}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®çµ„ã¿åˆã‚ã›ã§ã¯ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯å†…ã«å˜åœ¨ã™ã‚‹ä¸‹ä½ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’æ¤œå‡ºã™ã‚‹ã“ã¨ã‚‚å¯èƒ½ã§ã™ã€‚

こちらのページã«éžå¸¸ã«è‰¯ã„ã‚µãƒ³ãƒ—ãƒ«ãŒã‚ã£ãŸã®ã§ã€æ‹å€Ÿã—ã¾ã™ã€‚ã“ã‚Œã¯ã‚ã‚‹Twitterã‚¢ã‚«ã‚¦ãƒ³ãƒˆã®ãƒ„ã‚¤ãƒ¼ãƒˆã®単語文書行列ã§ã™ã€‚

> load("termDocMatrix.rdata")
> # change it to a Boolean matrix
> termDocMatrix[termDocMatrix>=1] <- 1
> # transform into a term-term adjacency matrix
> termMatrix <- termDocMatrix %*% t(termDocMatrix)
> # inspect terms numbered 5 to 10
> termMatrix[5:10,5:10]
              Terms
Terms          data examples introduction mining network package
  data           53        5            2     34       0       7
  examples        5       17            2      5       2       2
  introduction    2        2           10      2       2       0
  mining         34        5            2     47       1       5
  network         0        2            2      1      17       1
  package         7        2            0      5       1      21
> # build a graph from the above matrix
> g <- graph.adjacency(termMatrix, weighted=T, mode = "undirected")
> # remove loops
> g <- simplify(g)
> # set labels and degrees of vertices
> V(g)$label <- V(g)$name
> V(g)$degree <- degree(g)
> # set seed to make the layout reproducible
> set.seed(3952)
> layout1 <- layout.fruchterman.reingold(g)
> plot(g, layout=layout1)

f:id:TJO:20130610114200p:plain

Fruchterman-Reingoldã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§æç”»ã—ãŸçµæžœã§ã™ã€‚ä¸å¿ƒã«"data", "mining", "r"ãŒæ¥ã¦ã„ã¾ã™ãã€‚ã“ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã ã¨ã‚ã‚‹ç¨‹åº¦éš£æŽ¥ã—ã¦ã„ã‚‹ã‚‚ã®åŒå£«ãŒè¿‘ãã«é…ç½®ã•ã‚Œã‚‹ã®ã§ã€ã“ã®3ã¤ã®å˜èªžã¯ã‹ãªã‚Šé–¢é€£æ€§ãŒå¼·ã„ã§ã‚ã‚ã†ã“ã¨ãŒã†ã‹ãŒãˆã¾ã™ã€‚

Page Rankã‚‚ã“ã‚“ãªæ„Ÿã˜ã§å‡ºã›ã¾ã™ã€‚"r"ã¨"data"ãŒå¼·ã„ã§ã™ãã€‚

> page.rank(g)$vector
    analysis applications         code    computing         data     examples 
  0.07022298   0.02249946   0.02695463   0.02793215   0.10116822   0.04917196 
introduction       mining      network      package     parallel    positions 
  0.02421137   0.09600309   0.04951537   0.04624544   0.02615590   0.02472511 
postdoctoral            r     research       series       slides       social 
  0.02990285   0.14125478   0.02646251   0.03275173   0.03787469   0.03888708 
        time     tutorial        users 
  0.03275173   0.04198358   0.05332538

ä»–ã«ã‚‚betweenessã¨ã‹centralityã¨ã‹è‰²ã€…ã‚°ãƒ©ãƒ•å…¨ä½“ã®æ€§è³ªã‚’è¡¨ã™ç‰¹å¾´é‡ã‚’ç®—å‡ºã™ã‚‹ã“ã¨ã‚‚å¯èƒ½ã§ã™ãŒã€ã“ã“ã§ã¯å‰²æ„›ã—ã¾ã™ã€‚

{linkcomm}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ä¸‹ä½ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯æ¤œå‡º

ã“ã‚Œã¾ã§ã¯ã‚ˆãã‚ã‚‹ã‚°ãƒ©ãƒ•åˆ†æžã®è©±ã§ã—ãŸã€‚ã“ã“ã‹ã‚‰å…ˆã¯ã€æœ€è¿‘ã«ãªã£ã¦ç ”ç©¶é–‹ç™ºãŒé€²ã‚ã‚‰ã‚Œã¦ã„ã‚‹ã€Œã‚°ãƒ©ãƒ•ã‹ã‚‰ã•ã‚‰ã«ä¸‹ä½ã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯orã‚°ãƒ«ãƒ¼ãƒ”ãƒ³ã‚°ã€ã‚’æ¤œå‡ºã™ã‚‹ã¨ã„ã†æ–¹æ³•è«–ã®ãŠè©±ã§ã™ã€‚ä¸Šè¨˜ãƒšãƒ¼ã‚¸ã§ã‚‚ç´¹ä»‹ã•ã‚Œã¦ã„ã‚‹é€šã‚Šã€{linkcomm} + {igraph0}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§å®Ÿéš›ã«åˆ†æžã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

ä¾‹ãˆã°{linkcomm}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã«å…¥ã£ã¦ã„ã‚‹ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã€karate*12ã‚’ç”¨ã„ã‚‹ã¨ã“ã‚“ãªæ„Ÿã˜ã«ãªã‚Šã¾ã™ã€‚

> karate.g<-getLinkCommunities(karate,directed=T)
   Checking for loops and duplicate edges... 100.00%
   Calculating edge similarities for 78 edges... 100.00%
   Hierarchical clustering of edges...
   Calculating link densities... 100.00%
   Maximum partition density =  0.1632479 
   Finishing up...4/4... 100.00%
   Plotting...
   Colouring dendrogram... 100% 
> karate.ocg<-getOCG.clusters(karate)
Calculating Initial class System....Done
Nb. of classes 24
Nb. of edges not within the classes 13
Number of initial classes 24
Running....
Remaining classes: None                 
Reading OCG data...
Extracting cluster sizes... 100% 
> plot(karate.g)
> plot(karate.g,type="graph")
   Getting node community edge density...100%
   Getting node layout...
   Constructing node pies...100%
> plot(karate.ocg,type="graph")
   Getting node community edge density...100%
   Getting node layout...
   Constructing node pies...100%

f:id:TJO:20130610112419p:plain

getLinkCommunities()é–¢æ•°ã‚’å®Ÿè¡Œã—ãŸæ™‚ç‚¹ã§ã€ãƒ‡ãƒ³ãƒ‰ãƒã‚°ãƒ©ãƒ ãŒè¡¨ç¤ºã•ã‚Œã¾ã™ã€‚ã“ã®ãƒ—ãƒãƒƒãƒˆã‹ã‚‰ã¯ä¸‹ä½ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã¸ã®åˆ†å²ã®æ§˜åãŒè¦‹ã¦å–ã‚Œã¾ã™ã€‚ã¾ãŸã€ãã®ä¸‹ã®2ã¤ã®plot()é–¢æ•°ã§ä»¥ä¸‹ã®ã‚ˆã†ã«ä¸‹ä½ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’å›³ç¤ºã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

f:id:TJO:20130610112629p:plain

f:id:TJO:20130610112641p:plain

ã“ã®ç©ºæ‰‹ã‚¯ãƒ©ãƒ–ãŒã€2ã¤ã®å¤§ããªæ´¾é–¥ã‚°ãƒ«ãƒ¼ãƒ—ã«åˆ†ã‹ã‚Œã¦ã„ã‚‹ã“ã¨ãŒå®šæ€§çš„ã«åˆ†ã‹ã‚Šã¾ã™ã€‚ã€‚ã€‚æ ¼é—˜æŠ€ã®å›£ä½“ã§ã“ã†ã„ã†æ´¾é–¥ãŒã‚ã‚‹ã®ã£ã¦å±ãªã„ã¨æ€ã†ã‚“ã§ã™ãŒï¼ˆç¬‘ï¼‰ã€‚åŒæ§˜ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’æŠ½å‡ºã™ã‚‹ã“ã¨ã•ãˆã§ãã‚Œã°ã€ã‚‚ã¡ã‚ã‚“webãƒ‡ãƒ¼ã‚¿åˆ†æžã§ã‚‚ååˆ†ã«ä½¿ãˆã‚‹æ‰‹æ³•ã ã¨æ€ã„ã¾ã™ã€‚

ï¼ˆâ€»â€»ç”¨èªžã®èª¤ã‚ŠãŒã„ãã¤ã‹ã‚ã£ãŸã®ã§ç›´ã—ã¾ã—ãŸã€‚ã”ã‚ã‚“ãªã•ã„ã€‚ã€‚ã€‚ï¼‰

ï¼ˆâ€»â€»â€»id:yag_aysã•ã‚“ã®ã”æŒ‡æ‘˜ã«å¾“ã„ã€ã‚°ãƒ©ãƒ•ç†è«–å‘¨ã‚Šã¯è¨˜è¿°ã‚’æ”¹ã‚ã¾ã—ãŸã€‚ã”æŒ‡æ‘˜æœ‰é›£ã†ã”ã–ã„ã¾ã—ãŸï¼†ã”ã‚ã‚“ãªã•ã„ï¼‰

*3:ä¸€å¿œãƒŸã‚·ã‚¬ãƒ³å·žã®åèª‰ã®ãŸã‚ã«æ›¸ã„ã¦ãŠãã¨ã€è¿‘å¹´ã«ãªã£ã¦ç‰¹ã«ã‚·ã‚«ã‚´è¿‘è¾ºã¯æ±šåè¿”ä¸Šã¨ã°ã‹ã‚Šã«æ²»å®‰ã®å‘ä¸ŠãŒé€²ã¿ã€ä»Šã‚„ã‚·ã‚«ã‚´ã®ãƒ€ã‚¦ãƒ³ã‚¿ã‚¦ãƒ³ã¯å¤œã§ã‚‚å¥³æ€§ã®ç‹¬ã‚Šæ©ããŒã§ãã‚‹ãã‚‰ã„å®‰å…¨ãªè¡—ã«ãªã£ã¦ã„ã¾ã™ã€‚å¿µã®ãŸã‚

*4:åŽ³å¯†ã«ã¯ã‚¸ãƒ‹ä¿‚æ•°ã‚’ä½¿ã†ã‹ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã‚’ä½¿ã†ã‹ã§æ‰‹æ³•ãŒå¤‰ã‚ã‚‹

*5:3åˆ†é¡žä»¥ä¸Šã«åˆ†ã‘ã‚‰ã‚Œã‚‹æ‰‹æ³•ã‚’å®Ÿè£…ã—ã¦ã„ã‚‹ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚‚ã‚ã‚‹

*6:SPSSã¯ãƒ¢ãƒ³ãƒ†ã‚«ãƒ«ãƒãƒ»ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ã‹ä½•ã‹ã§å‡ºã—ã«è¡Œã£ã¦ã„ã‚‹ã‚ˆã†ã§ã™ãŒ

*7:ã‚¸ãƒ‹ä¿‚æ•°ã‚’ç”¨ã„ã‚‹CARTç³»åˆ—ã®å ´åˆã€ã‚¸ãƒ‹ä¿‚æ•°æ¸›å°‘åº¦ã§å¤‰æ•°é‡è¦åº¦ã‚’è¡¨ã™ã“ã¨ãŒå¯èƒ½

*8:ãŸã ã—è¨ˆé‡æ™‚ç³»åˆ—åˆ†æžã¯SPSSã§ã¯æ‰‹è–„ãªã®ã§è¦æ³¨æ„

*9:ã£ã¦ã‹æœ€è¿‘ã“ã‚Œã‚’ã‚„ã‚‹Hiveã‚¯ã‚¨ãƒªã®æ›¸ãæ–¹ã‚’çŸ¥ã£ãŸ

*10:æŒ‡æ‘˜ã‚’å—ã‘ã¦ä¿®æ£ã—ã¾ã—ãŸ

*11:ç´ äººã‚†ãˆã®èª¤ã‚Šã‚’çŠ¯ã—ã¦ãŠã‚Šã¾ã—ãŸã”ã‚ã‚“ãªã•ã„

*12:"A social network of friendships between 34 members of a karate club at a US university in the 1970s (Zachary 1977)"ã¨æ›¸ã„ã¦ã‚ã‚‹é€šã‚Šã€å®Ÿéš›ã®ã‚¢ãƒ¡ãƒªã‚«ã®å¤§å¦ã®ç©ºæ‰‹åŒå¥½ä¼šã«ãŠã‘ã‚‹å¦ç”ŸåŒå£«ã®é–¢ä¿‚æ€§ã‚’å–æã—ã¦å¾—ãŸãƒ‡ãƒ¼ã‚¿ã‚‰ã—ã„ã§ã™

æ¸‹è°·é§…å‰ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã®ãƒ–ãƒã‚°

å…ƒç¥–ã€Œå…æœ¬æœ¨ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã€ã§ã™ / é“çŽ„å‚â†’éŠ€åº§â†’æ±äº¬â†’å…æœ¬æœ¨â†’æ¸‹è°·é§…å‰

è¿½è¨˜

å›žå¸°åˆ†æžï¼ˆç‰¹ã«ç·šå½¢é‡å›žå¸°åˆ†æžï¼‰

ç‹¬ç«‹æ€§ã®æ¤œå®šï¼ˆã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ãƒ•ã‚£ãƒƒã‚·ãƒ£ãƒ¼ã®æ£ç¢ºç¢ºçŽ‡æ¤œå®šï¼‰

ä¸»æˆåˆ†åˆ†æž(PCA) / å› ååˆ†æž

ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

æ±ºå®šæœ¨ / å›žå¸°æœ¨

ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ã‚¿ãƒ¼ãƒžã‚·ãƒ³(SVM)

ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ

ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžï¼ˆãƒã‚¹ã‚±ãƒƒãƒˆåˆ†æžãƒ»ç›¸é–¢ãƒ«ãƒ¼ãƒ«æŠ½å‡ºï¼‰

è¨ˆé‡æ™‚ç³»åˆ—åˆ†æž

ãŠã‚ã‚Šã«

ãŠã¾ã‘1ï¼šã€Œç´ æ€§ãƒ™ã‚¯ãƒˆãƒ«ï¼‹åˆ†é¡žãƒ©ãƒ™ãƒ«ã€ãªã‚‹ãƒ‡ãƒ¼ã‚¿å‰å‡¦ç†

ãŠã¾ã‘2ï¼šã‚°ãƒ©ãƒ•ç†è«–*10

{igraph}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã‚°ãƒ©ãƒ•åˆ†æž

{linkcomm}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ä¸‹ä½ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯æ¤œå‡º

è¿½è¨˜

å›žå¸°åˆ†æžï¼ˆç‰¹ã«ç·šå½¢é‡å›žå¸°åˆ†æžï¼‰

ç‹¬ç«‹æ€§ã®æ¤œå®šï¼ˆã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ãƒ•ã‚£ãƒƒã‚·ãƒ£ãƒ¼ã®æ­£ç¢ºç¢ºçŽ‡æ¤œå®šï¼‰

ä¸»æˆåˆ†åˆ†æž(PCA) / å› å­åˆ†æž

ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

æ±ºå®šæœ¨ / å›žå¸°æœ¨

ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ã‚¿ãƒ¼ãƒžã‚·ãƒ³(SVM)

ãƒ­ã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ

ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžï¼ˆãƒã‚¹ã‚±ãƒƒãƒˆåˆ†æžãƒ»ç›¸é–¢ãƒ«ãƒ¼ãƒ«æŠ½å‡ºï¼‰

è¨ˆé‡æ™‚ç³»åˆ—åˆ†æž

ãŠã‚ã‚Šã«

ãŠã¾ã‘1ï¼šã€Œç´ æ€§ãƒ™ã‚¯ãƒˆãƒ«ï¼‹åˆ†é¡žãƒ©ãƒ™ãƒ«ã€ãªã‚‹ãƒ‡ãƒ¼ã‚¿å‰å‡¦ç†

ãŠã¾ã‘2ï¼šã‚°ãƒ©ãƒ•ç†è«–*10

{igraph}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã‚°ãƒ©ãƒ•åˆ†æž

{linkcomm}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ä¸‹ä½ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯æ¤œå‡º

å›žå¸°åˆ†æžï¼ˆç‰¹ã«ç·šå½¢é‡å›žå¸°åˆ†æžï¼‰

ç‹¬ç«‹æ€§ã®æ¤œå®šï¼ˆã‚«ã‚¤äºŒä¹—æ¤œå®šãƒ»ãƒ•ã‚£ãƒƒã‚·ãƒ£ãƒ¼ã®æ£ç¢ºç¢ºçŽ‡æ¤œå®šï¼‰

ä¸»æˆåˆ†åˆ†æž(PCA) / å› ååˆ†æž

ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ã‚¿ãƒ¼ãƒžã‚·ãƒ³(SVM)

ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°

ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžï¼ˆãƒã‚¹ã‚±ãƒƒãƒˆåˆ†æžãƒ»ç›¸é–¢ãƒ«ãƒ¼ãƒ«æŠ½å‡ºï¼‰

è¨ˆé‡æ™‚ç³»åˆ—åˆ†æž

ãŠã‚ã‚Šã«

ãŠã¾ã‘1ï¼šã€Œç´ æ€§ãƒ™ã‚¯ãƒˆãƒ«ï¼‹åˆ†é¡žãƒ©ãƒ™ãƒ«ã€ãªã‚‹ãƒ‡ãƒ¼ã‚¿å‰å‡¦ç†

ãŠã¾ã‘2ï¼šã‚°ãƒ©ãƒ•ç†è«–*10

{igraph}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã‚°ãƒ©ãƒ•åˆ†æž

{linkcomm}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ä¸‹ä½ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯æ¤œå‡º