Rã§æ©Ÿæ¢°å¦ç¿’ã™ã‚‹ãªã‚‰ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã‚‚ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒé–¢æ•°orã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§ãŠæ‰‹è»½ã«

ã¡ã‚‡ã£ã¨èª¿ã¹ã¦ã¿ãŸã‚‰ã‚¿ã‚¤ãƒˆãƒ«ã®ä»¶ã«ã¤ã„ã¦è¨€åŠã—ã¦ã‚‹è¨˜äº‹ãŒã‚ã¾ã‚Šå¤šããªã‹ã£ãŸã®ã§ã€ã–ã£ãã‚Šæ›¸ã„ã¦ã¿ã¾ã™ã€‚ãªãŠã€ã“ã®è¨˜äº‹ã¯id:shakezoã•ã‚“ã®

実務でRandomForestを使ったときに聞かれたこと

ã¸ã®ã‚ªãƒžãƒ¼ã‚¸ãƒ¥ã§ã™ã€‚ã¨ã„ã†ã‹ã€å®Ÿã¯åƒ•ã‚‚ã“ã®è¨˜äº‹ã‚’èªã‚“ã§ã‹ã‚‰ã€Œå¤šåˆ†Rãªã‚‰å°‚ç”¨ã®é–¢æ•°ãªã‚“ã‹ã‚‚ã‚ã‚‹ã ã‚ã†ã—ç°¡å˜ã«ã§ãã‚‹ã¯ãšã€ã¨æ€ã£ã¦ä»¥å‰ã‚ˆã‚Šã‚‚ç©æ¥µçš„ã«ã‚„ã‚‹ã‚ˆã†ã«ãªã£ãŸã®ã§ã—ãŸï¼ˆç¬‘ï¼‰ã€‚

ã©ã‚“ãªæ©Ÿæ¢°å¦ç¿’ã§ã‚‚ã€ä½•ã‹ã—ã‚‰ã®ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æŒã£ã¦ã„ã¾ã™ã€‚ä¾‹ãˆã°ã‚½ãƒ•ãƒˆãƒžãƒ¼ã‚¸ãƒ³SVMãªã‚‰ãƒžãƒ¼ã‚¸ãƒ³ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿CãŒã‚ã‚Šã¾ã™ã—ã€éžç·šå½¢ã‚¬ã‚¦ã‚·ã‚¢ãƒ³ã‚«ãƒ¼ãƒãƒ«SVMãªã‚‰ã•ã‚‰ã«ã‚«ãƒ¼ãƒãƒ«ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®Ïƒã¨ã‹ãŒå…¥ã‚Šã¾ã™ã€‚SMOï¼ˆé€æ¬¡æœ€å¤§æœ€é©åŒ–ï¼‰ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’åˆ©ç”¨ã™ã‚‹ã®ã§ã‚ã‚Œã°ã€ã•ã‚‰ã«ã•ã‚‰ã«toleranceã¨ã‹ã‚‚å…¥ã£ã¦ãã¾ã™ã€‚

ã—ã‹ã‚‚ã€ã¡ã‚‡ã£ã¨ã„ã˜ã£ã¦ã¿ã‚Œã°ã™ãåˆ†ã‹ã‚‹ã¨æ€ã†ã‚“ã§ã™ãŒã“ã®è¾ºã®ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’å¤‰ãˆã‚‹ã ã‘ã§æ©Ÿæ¢°å¦ç¿’ã®çµæžœã¯ã‚¬ãƒ³ã‚¬ãƒ³å¤‰ã‚ã‚Šã¾ã™ã€‚è©¦ã—ã«2æ¬¡å…ƒSVMã¨ã‹ã§åˆ†é›¢è¶…å¹³é¢ã‚’æ›¸ã„ã¦ã¿ã‚‹ã¨ã€Cã¨Ïƒã‚’å¤‰ãˆã‚‹ã ã‘ã§å…¨ãå¤‰ã‚ã£ã¦ã—ã¾ã„ã¾ã™ã€‚

ä¸‹ã®å›³2ã¤ã¯åƒ•ãŒä»¥å‰ç‹¬ç¿’ç”¨ã«Matlabã§æ›¸ã„ãŸSMOã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã«ã‚ˆã‚‹éžç·šå½¢ã‚¬ã‚¦ã‚·ã‚¢ãƒ³ã‚«ãƒ¼ãƒãƒ«SVM *1ã®å®Ÿè¡Œä¾‹ãªã‚“ã§ã™ãŒã€‚ã€‚ã€‚

f:id:TJO:20130902131341p:plain

f:id:TJO:20130902131347p:plain

ã»ã¼åŒã˜å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ç•°ãªã‚‹Cã¨Ïƒã®çµ„ã¿åˆã‚ã›ã§åˆ†é›¢è¶…å¹³é¢ã‚’ã‚³ãƒ³ã‚¿ãƒ¼ãƒ—ãƒãƒƒãƒˆã§æã„ã¦ã¿ã‚‹ã¨ã€ã“ã‚“ãªã«é•ã„ã¾ã™ã€‚ä¸Šã¯ç¶ºéº—ã«æ±ŽåŒ–ã•ã‚Œã¦ã„ã¾ã™ãŒã€ä¸‹ã¯æ˜Žã‚‰ã‹ã«ã‚ªãƒ¼ãƒãƒ¼ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°ã§ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã€æ©Ÿæ¢°å¦ç¿’ã™ã‚‹ãªã‚‰ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã¯å¿…é ˆã€‚ãã®Rã§ã®ã‚„ã‚Šæ–¹ã‚’ã€ä»£è¡¨çš„ãªãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’å–ã‚Šä¸Šã’ãªãŒã‚‰ã¡ã‚‡ã‚ã£ã¨è¦‹ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚åƒ•ã®å‹‰å¼·ã‚‚å…¼ãã¦ã€‚ã€‚ã€‚

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®åŽŸç†ã¨ã‹åˆ©ç‚¹ã¨ã‹ã¯å…¨ã¦id:shakezoã•ã‚“ã®è¨˜äº‹ã‚’èªã‚“ã§ä¸‹ã•ã„ã¨ã„ã†ã“ã¨ã§ã€ã¾ãšã“ã®ãƒ–ãƒã‚°ã§ã‚‚é »å‡ºã®{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã‚„ã‚‹å ´åˆã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®ã¨ã“ã‚ã‚’å–ã‚Šä¸Šã’ã¾ã™ã€‚

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŠã•ã‚‰ã„

é¢å€’ãªã®ã§ã€以前の記事ã§ä½¿ã£ãŸサンプルデータã‚’ãã®ã¾ã¾è»¢ç”¨ã—ã¾ã™ã€‚ãã®æ™‚åŒæ§˜ã¨ã‚Šã‚ãˆãšsample_dã¨ã‹ã„ã†åå‰ã«ã—ã¦ãŠãã¾ã™ã€‚

æ—¢ã«ä½•åº¦ã‹è‰²ã€…ãªè¨˜äº‹ã§è§¦ã‚Œã¦ã¾ã™ãŒã€ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã¯randomForest(){randomForest}é–¢æ•°ã§ç°¡å˜ã«ã‚„ã‚Œã¾ã™ã€‚ã¨ã‚Šã‚ãˆãšä½•ã‚‚ã„ã˜ã‚‰ãšã«ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®ã¾ã¾ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

> sample_d.rf<-randomForest(cv~.,sample_d)
> print(sample_d.rf)

Call:
 randomForest(formula = cv ~ ., data = sample_d) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 2

        OOB estimate of  error rate: 6.37%
Confusion matrix:
      No  Yes class.error
No  1399  101  0.06733333
Yes   90 1410  0.06000000

> importance(sample_d.rf)
   MeanDecreaseGini
a1        21.554057
a2        11.912213
a3         2.550909
a4       219.898301
a5        82.449264
a6       735.583208
a7         2.543989

ã¾ãè¦‹ãŸã¾ã‚“ã¾ã§ã™ã€‚OOB estimate of error rateãŒ6.37%ã¨ã€ã“ã®æ™‚ç‚¹ã§ã‚‚ãã‚Œã»ã©æ‚ªããªã„æ°—ã¯ã—ã¾ã™*2ã€‚

tuneRF()ã§ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã‚’ã‹ã‘ã¦æœ€é©åŒ–ã™ã‚‹

ã§ã€ä»Šå›žã®ãŠé¡Œãªã‚“ã§ã™ãŒã€‚æŽ¨å®šãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã§ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã—ã¦æœ€é©åŒ–ã—ãŸæ–¹ãŒè‰¯ã„ã§ã™ã‚ˆï¼ã¨ã„ã†ã“ã¨ãªã®ã§ã€ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚id:shakezoã•ã‚“ã®è¨˜äº‹ã«ã‚‚ã‚ã‚‹ã‚ˆã†ã«ã€

RandomForestã®ä¸»è¦ãªãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã¯æ¬¡ã®2ã¤ã§ã™ã€‚

ä½œæˆã™ã‚‹æ±ºå®šæœ¨ã®æ•°

ï¼‘ã¤ï¼‘ã¤ã®æ±ºå®šæœ¨ã‚’ä½œæˆã™ã‚‹éš›ã«ä½¿ç”¨ã™ã‚‹ç‰¹å¾´é‡ã®æ•°

ã“ã‚Œã‚‰ã®ã†ã¡ã€randomForest(){randomForest}é–¢æ•°ã§ã¯ä½œæˆã™ã‚‹æ±ºå®šæœ¨ã®æ•°ã¯ntreeã€1ã¤1ã¤ã®æ±ºå®šæœ¨ã‚’ä½œæˆã™ã‚‹éš›ã«ä½¿ç”¨ã™ã‚‹ç‰¹å¾´é‡ã®æ•°ã¯mtryã§æŒ‡å®šã§ãã¾ã™ã€‚ã“ã®ã†ã¡ã€ntreeã¯å¦ç¿’çµæžœã®randomForest.formulaã‚¯ãƒ©ã‚¹ãƒ‡ãƒ¼ã‚¿ã‚’plot()é–¢æ•°ã§å›³ç¤ºã™ã‚‹ã“ã¨ã§ntreeã‚’å¢—ã‚„ã™ã”ã¨ã«åŽæŸåº¦åˆã„ãŒã©ã†å¤‰ã‚ã‚‹ã‹ã‚’è¦‹ã‚‹ã“ã¨ãŒã§ãã‚‹ã®ã§ã€äº‹å¾Œã®åˆ¤å®šã«ãªã‚Šã¾ã™ã€‚

ã‚ˆã£ã¦ã€ã“ã“ã§ã®ç„¦ç‚¹ã¯mtryä¸€æŠžã€‚ã“ã‚Œã‚’ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã™ã‚‹æ–¹æ³•ã¯ç°¡å˜ã€tuneRF(){randomForest}é–¢æ•°ã‚’ä½¿ã†ã ã‘ã§ã™ã€‚

> sample_d.tune<-tuneRF(sample_d[,-8],sample_d[,8],doBest=T)
mtry = 2  OOB error = 6.17% 
Searching left ...
mtry = 1 	OOB error = 9% 
-0.4594595 0.05 
Searching right ...
mtry = 4 	OOB error = 6.63% 
-0.07567568 0.05

f:id:TJO:20130830140540p:plain

ã“ã‚“ãªæ„Ÿã˜ã§ã€doBestã‚’Trueã«ã—ã¦ãŠãã¨mtryã®å€™è£œã‚’å›³ç¤ºã—ã¦é¸ã‚“ã§ãã‚Œã¾ã™ã€‚ãªãŠtuneRF()é–¢æ•°ã§ã‚‚ntreeã‚’æŒ‡å®šã§ãã¾ã™ãŒã€ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§å•é¡Œãªã„ã§ã—ã‚‡ã†ã€‚

ã¨ã„ã†ã“ã¨ã§ã€å®Ÿéš›ã«mtry=2ã‚’æŒ‡å®šã—ã¦ã‚„ã‚Šç›´ã—ã¦ã¿ã¾ã—ãŸã€‚

> sample_d.rf2<-randomForest(cv~.,sample_d,mtry=2)
> print(sample_d.rf2)

Call:
 randomForest(formula = cv ~ ., data = sample_d, mtry = 2) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 2

        OOB estimate of  error rate: 6.33%
Confusion matrix:
      No  Yes class.error
No  1400  100  0.06666667
Yes   90 1410  0.06000000

> importance(sample_d.rf2)
   MeanDecreaseGini
a1        21.687817
a2        12.408733
a3         2.508693
a4       196.222452
a5        76.332301
a6       776.395852
a7         2.674710

OOB estimate of error rateãŒ6.33%ã¨ã»ã‚“ã®å°‘ã—ã§ã™ãŒã€æ”¹å–„ã•ã‚Œã¾ã—ãŸã€‚ã¤ã„ã§ãªã®ã§ã€ntreeã‚‚å¤‰ãˆã¦ã‚‚ã†ä¸€åº¦ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

> sample_d.rf3<-randomForest(cv~.,sample_d,mtry=2,ntree=2000)
> print(sample_d.rf3)

Call:
 randomForest(formula = cv ~ ., data = sample_d, mtry = 2, ntree = 2000) 
               Type of random forest: classification
                     Number of trees: 2000
No. of variables tried at each split: 2

        OOB estimate of  error rate: 6.3%
Confusion matrix:
      No  Yes class.error
No  1403   97  0.06466667
Yes   92 1408  0.06133333

> importance(sample_d.rf3)
   MeanDecreaseGini
a1        21.806920
a2        12.199403
a3         2.467463
a4       201.304439
a5        79.126512
a6       767.086724
a7         2.765361

> plot(sample_d.rf3)

f:id:TJO:20130830141107p:plain

OOB estimate of error rateãŒ6.3%ã´ã£ãŸã‚Šã¾ã§è½ã¡ã¾ã—ãŸï¼ˆã¾ãã»ã‚“ã®ã¡ã‚‡ã£ã¨ã§ã™ãŒï¼‰ã€‚å¦ç¿’ã®åŽæŸçŠ¶æ³ã‚’ãƒ—ãƒãƒƒãƒˆã—ã¦ã¿ã‚‹ã¨ã€å®Ÿã¯ntree = 500ãã‚‰ã„ã§ã‚‚ã†ååˆ†ã«åŽæŸã—ã¦ã„ã¦ã€2000ã¾ã§å¢—ã‚„ã™å¿…è¦ã¯ãªã‹ã£ãŸã‚‰ã—ã„ã¨ã„ã†ã“ã¨ã‚‚åˆ†ã‹ã‚Šã¾ã™ã€‚ãªã®ã§ã€è¨ˆç®—è² è·ã‚’è€ƒãˆã¦ntree = 500ãŒå¦¥å½“ã¨ã„ã†çµè«–ã«è‡³ã‚Šã¾ã—ãŸã€‚

ãƒ»ãƒ»ãƒ»ã¨ã„ã†ã“ã¨ã§ã€tuneRF()ã§ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã—ã¦ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã‚’ã‹ã‘ã‚‰ã‚Œã‚‹ã¨ã„ã†ã®ã‚’è¦‹ã¦ã¿ã¾ã—ãŸã€‚å®Ÿãƒ‡ãƒ¼ã‚¿ã ã¨ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãªã—ã ã¨å…¨ç„¶error rateãŒè½ã¡ãªã„ã‚ˆï½žã¿ãŸã„ãªã“ã¨ã‚‚ãƒãƒ³ãƒãƒ³å‡ºã¦ãã‚‹ã¨æ€ã†ã®ã§ã€é‡è¦ã§ã™ãã€‚

{e1071}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{e1071}ã¯æ±Žç”¨ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãªã®ã§è‰²ã€…ã‚ã‚Šã¾ã™ãŒã€ä»£è¡¨ä¾‹ã¨ã—ã¦LIBSVM *3ã®Rå®Ÿè£…ã§ã‚ã‚‹svm()é–¢æ•°ã§ã‚„ã£ã¦ã¿ã¾ã™ã€‚ãƒ¢ãƒ‡ãƒ«ã®æŽ¨å®šè‡ªä½“ã¯ã“ã‚“ãªæ„Ÿã˜ã§ã™ã€‚

> sample_d.libsvm<-svm(cv~.,sample_d)
> summary(sample_d.libsvm)

Call:
svm(formula = cv ~ ., data = sample_d)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  radial 
       cost:  1 
      gamma:  0.1428571 

Number of Support Vectors:  468

 ( 216 252 )


Number of Classes:  2 

Levels: 
 No Yes

svm(){e1071}ã«å¯¾ã—ã¦ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã—ãŸã‘ã‚Œã°ã€tune.svm()é–¢æ•°ã‚’ä½¿ã„ã¾ã™ã€‚

> t<-tune.svm(cv~.,data=sample_d)
> summary(t)

Error estimation of â€˜svmâ€™ using 10-fold cross validation: 0.06468537

> t$best.parameters
  dummyparameter
1              0
> t$best.performance
[1] 0.06468537
> t$best.model

Call:
best.svm(x = cv ~ ., data = sample_d)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  radial 
       cost:  1 
      gamma:  0.1428571 

Number of Support Vectors:  468

æœ€åˆã«ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§å‹æ‰‹ã«ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã•ã›ã¦ã—ã¾ã£ã¦ã„ã‚‹ã®ã§ã€ã‚ã¾ã‚Šé¢ç™½ããªã„ã§ã™ãï¼ˆæ±—ï¼‰ã€‚æ™®é€šã«irisãƒ‡ãƒ¼ã‚¿ã¨ã‹ã§ã‚‚ã£ã¨éŠã‚“ã§ã¿ã¦ã‚‚è‰¯ã„ã ã‚ã†ã¨ã¯æ€ã„ã¾ã™ã€‚

ãªãŠã€ã“ã¡ã‚‰ã®èª¬æ˜Žã¯id:hoxo_mã•ã‚“ã®ã€ŒSVM のチューニングのしかた（２）ã€ã‚’å‚è€ƒã«ã•ã›ã¦ã„ãŸã ãã¾ã—ãŸã€‚ã¨ã„ã†ã‹ã€ãã¡ã‚‰ã®è¨˜äº‹ã®æ–¹ãŒ

ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®æ‰‹é †ã¨ã—ã¦ã¯ã€

ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã§å¤§é›‘æŠŠã«æ¤œç´¢ã™ã‚‹ã€‚

æœ€é©ãªãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãŒã‚ã‚Šãã†ãªã¨ã“ã‚ã‚’çµžã£ã¦å†ã³ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã‚’è¡Œã†ã€‚

ã¨ã„ã†2æ®µéšŽã®ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã‚’è¡Œã„ã¾ã™ã€‚

ã¨ã„ã†ã‚ˆã†ã«çŽ‹é“ã®ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°æ‰‹é †ã‚’ãã¡ã‚“ã¨è¸ã‚“ã§å®Ÿè·µã—ã¦ã„ã‚‹ï¼ˆæœ€é©ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æŽ¢ç´¢ã«ãƒ—ãƒãƒƒãƒˆã‚‚ä½¿ã£ã¦ã„ã‚‹ï¼‰ä¾‹ã‚’ç´¹ä»‹ã—ã¦ã„ã‚‹ã®ã§ã€ãŠè–¦ã‚ã§ã™ã€‚

ã¡ãªã¿ã«{e1071}ã¯ä»–ã«ã‚‚kæœ€è¿‘å‚ãƒ»ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ãƒ»æ±ºå®šæœ¨*4ãƒ»ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã¨ã„ã£ãŸæ‰‹æ³•ã‚’å®Ÿè£…ã—ã¦ã„ã¦ã€ãã®å…¨ã¦ã«tune.XXX()é–¢æ•°ã‚’å‚™ãˆã¦ã„ã‚‹ã®ã§ã€ã©ã®æ‰‹æ³•ã§ã‚‚ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãŒæ‰‹è»½ã«ã§ãã¾ã™ã€‚

{caret}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{caret}ã¯è†¨å¤§ãªæ©Ÿæ¢°å¦ç¿’æ‰‹æ³•*5ã‚’ã‚«ãƒãƒ¼ã—ã¦ã„ã¾ã™ãŒã€åŸºæœ¬çš„ã«ã¯ãƒ¡ã‚¤ãƒ³ã¨ãªã‚‹train()é–¢æ•°ã®ä¸ã®tuneLength, tuneGridã¨ã„ã†2ã¤ã®å¼•æ•°ã§ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°å‘¨ã‚Šã¯ã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ«ã—ã¾ã™ã€‚ä¾‹ãˆã°method="svmRadial"*6ã®å ´åˆã¯ã“ã‚“ãªæ„Ÿã˜ã«ãªã‚Šã¾ã™ã€‚

> sample_d.c_svm<-train(cv~.,data=sample_d,method="svmRadial",trace=T,tuneLength=10)
> print(sample_d.c_svm)
3000 samples
   7 predictors
   2 classes: 'No', 'Yes' 

No pre-processing
Resampling: Bootstrap (25 reps) 

Summary of sample sizes: 3000, 3000, 3000, 3000, 3000, 3000, ... 

Resampling results across tuning parameters:

  C     Accuracy  Kappa  Accuracy SD  Kappa SD
  0.25  0.935     0.87   0.00551      0.011   
  0.5   0.936     0.871  0.00532      0.0107  
  1     0.935     0.87   0.00561      0.0112  
  2     0.934     0.867  0.00624      0.0125  
  4     0.933     0.865  0.00596      0.0119  
  8     0.932     0.863  0.00587      0.0118  
  16    0.931     0.861  0.00602      0.0121  
  32    0.93      0.861  0.00596      0.0119  
  64    0.93      0.861  0.00596      0.0119  
  128   0.93      0.861  0.00596      0.0119  

Tuning parameter 'sigma' was held constant at a value of 0.1179734
Accuracy was used to select the optimal model using  the largest value.
The final values used for the model were C = 0.5 and sigma = 0.118.

tuneLength=10ã¨ã—ãŸã®ã§ã€10é€šã‚Šã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãƒ†ã‚¹ãƒˆãŒè¡Œã‚ã‚Œã¦ã„ã¾ã™ã€‚2ã®å€æ•°ã«æ²¿ã£ã¦ãƒžãƒ¼ã‚¸ãƒ³ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿Cã‚’å‹•ã‹ã—ã¦ã‚‹æ„Ÿã˜ã§ã—ã‚‡ã†ã‹ã€‚

ã§ã€ã“ã®çµæžœã‚’è¦‹ã‚Œã°åˆ†ã‹ã‚‹ã‚ˆã†ã«ã‚‚ã†ã¡ã‚‡ã£ã¨ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã®ç¯„å›²ã‚’çµžã‚Œã°ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒè‰¯ããªã‚‹æ°—ãŒã™ã‚‹ã®ã§ã€creatGrid()é–¢æ•°ã§ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã®ç¯„å›²ã‚’æ˜Žç¤ºçš„ã«æ±ºã‚ã¦ã€train()é–¢æ•°ã®å¼•æ•°tuneGridã¨ã—ã¦ä¸Žãˆã¦ã¿ã‚‹ã“ã¨ã«ã—ã¾ã—ãŸã€‚

> t.grid<-createGrid("svmRadial",data=sample_d,len=4)
> print(t.grid)
   .sigma   .C
1    0.01 0.25
2    0.10 0.25
3    1.00 0.25
4   10.00 0.25
5    0.01 0.50
6    0.10 0.50
7    1.00 0.50
8   10.00 0.50
9    0.01 1.00
10   0.10 1.00
11   1.00 1.00
12  10.00 1.00
13   0.01 2.00
14   0.10 2.00
15   1.00 2.00
16  10.00 2.00
> sample_d.c_svm<-train(cv~.,data=sample_d,method="svmRadial",trace=F,tuneGrid=t.grid)
> print(sample_d.c_svm)
3000 samples
   7 predictors
   2 classes: 'No', 'Yes' 

No pre-processing
Resampling: Bootstrap (25 reps) 

Summary of sample sizes: 3000, 3000, 3000, 3000, 3000, 3000, ... 

Resampling results across tuning parameters:

  C     sigma  Accuracy  Kappa  Accuracy SD  Kappa SD
  0.25  0.01   0.935     0.87   0.00546      0.0109  
  0.25  0.1    0.936     0.872  0.00574      0.0115  
  0.25  1      0.932     0.864  0.00544      0.0109  
  0.25  10     0.931     0.862  0.00512      0.0103  
  0.5   0.01   0.935     0.87   0.00546      0.0109  
  0.5   0.1    0.936     0.872  0.00545      0.0109  
  0.5   1      0.932     0.865  0.00431      0.0087  
  0.5   10     0.932     0.865  0.00431      0.0087  
  1     0.01   0.935     0.87   0.00546      0.0109  
  1     0.1    0.937     0.873  0.00516      0.0103  
  1     1      0.932     0.865  0.00431      0.0087  
  1     10     0.932     0.865  0.00431      0.0087  
  2     0.01   0.935     0.87   0.00546      0.0109  
  2     0.1    0.935     0.871  0.00454      0.00912 
  2     1      0.932     0.865  0.00431      0.0087  
  2     10     0.932     0.865  0.00431      0.0087  

Accuracy was used to select the optimal model using  the largest value.
The final values used for the model were C = 1 and sigma = 0.1.

ä½•ã¨ãªãã¨ã“ã‚ã©ã“ã‚ãƒãƒ¼ã‚«ãƒ«ãƒŸãƒ‹ãƒžãƒ ã¿ãŸã„ãªçµ„ã¿åˆã‚ã›ãŒã‚ã‚‹ã‚ˆã†ã§ã™ãŒã€ã‚ãšã‹ãªãŒã‚‰ã•ã‚‰ã«accuracyãŒå‘ä¸Šã—ã¾ã—ãŸã€‚ã‚ã‚“ã¾ã‚Šã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒç¯„å›²ã‚’åºƒã’ã‚‹ã¨è¨ˆç®—æ™‚é–“ãŒã‹ã‹ã‚‹ã®ã§ã€ãã®è¾ºã¯é©å½“ã«ã€‚

> sample_d.c_nnet<-train(cv~.,data=sample_d,method="nnet",tuneLength=4,maxit=100,trace=F)
> print(sample_d.c_nnet)
3000 samples
   7 predictors
   2 classes: 'No', 'Yes' 

No pre-processing
Resampling: Bootstrap (25 reps) 

Summary of sample sizes: 3000, 3000, 3000, 3000, 3000, 3000, ... 

Resampling results across tuning parameters:

  size  decay    Accuracy  Kappa  Accuracy SD  Kappa SD
  1     0        0.937     0.874  0.00796      0.0159  
  1     1e-04    0.937     0.874  0.00717      0.0143  
  1     0.00316  0.937     0.874  0.0069       0.0138  
  1     0.1      0.936     0.872  0.00703      0.0141  
  3     0        0.934     0.869  0.00704      0.0141  
  3     1e-04    0.935     0.87   0.00648      0.013   
  3     0.00316  0.933     0.866  0.0144       0.0288  
  3     0.1      0.936     0.872  0.0066       0.0132  
  5     0        0.931     0.863  0.00653      0.0131  
  5     1e-04    0.933     0.866  0.00691      0.0138  
  5     0.00316  0.932     0.864  0.0067       0.0134  
  5     0.1      0.935     0.87   0.00702      0.0141  
  7     0        0.928     0.856  0.0217       0.0429  
  7     1e-04    0.932     0.863  0.00673      0.0135  
  7     0.00316  0.932     0.864  0.00673      0.0135  
  7     0.1      0.934     0.868  0.00722      0.0145  

Accuracy was used to select the optimal model using  the largest value.
The final values used for the model were size = 1 and decay = 0.

tuneLength=4ã¨ã™ã‚‹ã“ã¨ã§ã€4é€šã‚Šã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ï¼ˆnnetã®å ´åˆã¯å€‹ã€…ã®æ‹¬ã‚Šã”ã¨ã«4é€šã‚Šï¼‰ã‚’ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã§è©¦ã—ãŸçµæžœãŒç¤ºã•ã‚Œã¦ã„ã¾ã™ã€‚nnetã ã¨åŽæŸã«æ™‚é–“ãŒã‹ã‹ã‚‹ã‚±ãƒ¼ã‚¹ãŒã‚ã‚‹ã®ã§ã€ã“ã‚Œã¾ãŸã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒç¯„å›²ã®æ±ºã‚æ–¹ã¯è‰²ã€…æ°—ã‚’ä»˜ã‘ãŸæ–¹ãŒè‰¯ã„ã‹ã‚‚ã§ã™ã€‚

ãŠã¾ã‘

ç‰¹ã«{e1071}, {caret}ã¯æ‰‹æ³•ã”ã¨ã«ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®ã‚„ã‚Šæ–¹ãŒã¾ã¡ã¾ã¡ã‚‰ã—ã„ã®ã§ã€ã“ã®è¾ºã¯ã¾ãŸãƒŠãƒ¬ãƒƒã‚¸ãŒãŸã¾ã£ãŸã‚‰ç´¹ä»‹ã—ã¾ã™ã€‚ã€‚ã€‚ãã®ã†ã¡ã©ã“ã‹ã®TokyoRã§è©±ãã†ã‹ãªã€‚

*1:å®Ÿã¯Matlabã‚¹ã‚¯ãƒªãƒ—ãƒˆã‚’GitHubã®æŸæ‰€ã«è»¢ãŒã—ã¦ã‚ã‚Šã¾ã™ã€‚ã€‚ã€‚

*2:ã“ã‚ŒãŒ10ä¸‡ãƒ¬ã‚³ãƒ¼ãƒ‰ã§50æ¬¡å…ƒä»¥ä¸Šã®å®Ÿãƒ‡ãƒ¼ã‚¿ã¨ã‹ã ã¨è¦‹ãŸãã‚‚ãªã„æ•°å—ã«ãªã‚‹ã“ã¨ã‚‚ã€‚ã€‚ã€‚

*3:è¨€ã‚ãšã¨çŸ¥ã‚ŒãŸå¤šè¨€èªžå¯¾å¿œSVMãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã™

*4:ã§ã‚‚è‚å¿ƒã®æ±ºå®šæœ¨ã‚’å®Ÿè¡Œã™ã‚‹é–¢æ•°ãŒè¦‹å½“ãŸã‚‰ãªã„ã€‚ã€‚ã€‚

æ¸‹è°·é§…å‰ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã®ãƒ–ãƒã‚°

å…ƒç¥–ã€Œå…æœ¬æœ¨ã§åƒããƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã€ã§ã™ / é“çŽ„å‚â†’éŠ€åº§â†’æ±äº¬â†’å…æœ¬æœ¨â†’æ¸‹è°·é§…å‰

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŠã•ã‚‰ã„

tuneRF()ã§ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã‚’ã‹ã‘ã¦æœ€é©åŒ–ã™ã‚‹

{e1071}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{caret}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

ãŠã¾ã‘

ç·è«–ï¼šä½•ã§æ©Ÿæ¢°å­¦ç¿’ã™ã‚‹ã®ã«ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãŒå¿…è¦ãªã®ï¼Ÿ

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŠã•ã‚‰ã„

tuneRF()ã§ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã‚’ã‹ã‘ã¦æœ€é©åŒ–ã™ã‚‹

{e1071}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{caret}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

ãŠã¾ã‘

ç·è«–ï¼šä½•ã§æ©Ÿæ¢°å¦ç¿’ã™ã‚‹ã®ã«ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãŒå¿…è¦ãªã®ï¼Ÿ

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{randomForest}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŠã•ã‚‰ã„

tuneRF()ã§ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã‚’ã‹ã‘ã¦æœ€é©åŒ–ã™ã‚‹

{e1071}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

{caret}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®å ´åˆ

ãŠã¾ã‘