ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãƒ¦ãƒ¼ã‚¶ãƒ¼ã®ãŸã‚ã®æ©Ÿæ¢°å¦ç¿’(12)ï¼šXgboost (eXtreme Gradient Boosting)

ä»Šã‚„Kaggleã‚„KDD cupä»¥ä¸‹åã ãŸã‚‹æ©Ÿæ¢°å¦ç¿’ã‚³ãƒ³ãƒšã§çµ¶å¤§ãªäººæ°—ã‚’èª‡ã‚‹åˆ†é¡žå™¨ã€Xgboost (eXtreme Gradient Boosting)ã€‚ç‰¹ã«Kaggleã®Higgs Boson Machine Learning Challengeã®å„ªå‹ãƒãƒ¼ãƒ ãŒé§†ä½¿ã—ãŸã“ã¨ã§æœ‰åã«ãªã£ãŸæ„ŸãŒã‚ã‚‹ã‚ˆã†ã§ã€‚

ãã®å®Ÿè£…ã§ã™ãŒã€C++ãƒ™ãƒ¼ã‚¹ã§é«˜é€ŸåŒ–ã—ãŸã‚‚ã®ã«Rã¨Pythonã®ãƒ©ãƒƒãƒ‘ãƒ¼ã‚’ã¤ã‘ãŸã‚‚ã®ãŒæ—¢ã«GitHubã§å…¬é–‹ã•ã‚Œã¦ã„ã¾ã™ã€‚

Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã‚ã‚‹{xgboost}ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã«ã¤ã„ã¦ã®æ³¨æ„äº‹é …ã¯å‰å›žã®è¨˜äº‹ã«æ›¸ã„ã¦ã„ã¾ã™ã®ã§ã€ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã®éš›ã¯ã”å‚è€ƒã«ã—ã¦ã„ãŸã ã‘ã‚Œã°ã¨ã€‚

ã•ã¦ã€‚ã“ã‚Œã ã‘å¤§äººæ°—ã®åˆ†é¡žå™¨ã¨ãªã‚‹ã¨å›½å†…å¤–å•ã‚ãšè‰²ã€…ãªè§£èª¬è¨˜äº‹ã«æº¢ã‚Œã¦ãŠã‚Šã¾ã—ã¦ã€ä¾‹ãˆã°æ—¥æœ¬èªžãƒ–ãƒã‚°ã§ã‚‚ã“ã‚Œã ã‘ã®è¨˜äº‹ãŒæ—¢ã«å‡ºã¦ã¾ã™ã€‚

æ—¢ã«è‰²ã€…ãªæœ‰åŠ›ãƒ–ãƒã‚°ãŒå–ã‚Šä¸Šã’åˆ‡ã£ãŸå¾Œã§ã“ã‚“ãªè¨˜äº‹ã‚’æ›¸ã„ã¦ã‚‚ã‚‚ã¯ã‚„ä½•ã‚‚é¢ç™½ããªã„æ°—ãŒã™ã‚‹ã‚“ã§ã™ãŒã€è‡ªåˆ†ã®å‚™å¿˜éŒ²ã®ãŸã‚ã«ãã¡ã‚“ã¨æ›¸ã„ã¦ãŠã“ã†ã‹ã¨æ€ã„ã¾ã™ã€‚ã¨è¨€ã£ã¦ã‚‚ã€æ£ç›´è¨€ã£ã¦å¤§ã—ãŸå†…å®¹ã¯æ›¸ã‘ã¾ã›ã‚“ãŒã€‚ã€‚ã€‚

ã¾ãšMNISTã®ã‚·ãƒ§ãƒ¼ãƒˆãƒãƒ¼ã‚¸ãƒ§ãƒ³ã§è©¦ã—ã¦ã¿ã‚‹

å‰å›žã¾ã§ã¯è‡ªå‰ã®å¤šå¤‰é‡ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½¿ã£ã¦ã„ãŸã‚“ã§ã™ãŒã€ä»Šå›žã‹ã‚‰ã¯è‹±èªžç‰ˆãƒ–ãƒã‚°ã§ã‚‚æ„›ç”¨ã—ã¦ã„ã‚‹MNISTã®ã‚·ãƒ§ãƒ¼ãƒˆãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚’ä½¿ã£ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚僕のGitHubリポジトリã‹ã‚‰"short_prac_train.csv"ã¨"short_prac_test.csv"ã‚’DLã—ã¦ãã¦ã€ãã‚Œãžã‚Œtrain, testã¨ã„ã†åå‰ã§ã‚¤ãƒ³ãƒãƒ¼ãƒˆã—ã¦ãŠã„ã¦ä¸‹ã•ã„ã€‚

> library(xgboost)
> library(Matrix)
> train<-read.csv("short_prac_train.csv")
> test<-read.csv("short_prac_test.csv")
> train.mx<-sparse.model.matrix(label~., train)
> test.mx<-sparse.model.matrix(label~., test)
> dtrain<-xgb.DMatrix(train.mx, label=train$label)
> dtest<-xgb.DMatrix(test.mx, label=test$label)
> train.gbdt<-xgb.train(params=list(objective="multi:softmax", num_class=10, eval_metric="mlogloss", eta=0.2, max_depth=5, subsample=1, colsample_bytree=0.5), data=dtrain, nrounds=150, watchlist=list(eval=dtest, train=dtrain))
[0]	eval-mlogloss:1.738412	train-mlogloss:1.698857
[1]	eval-mlogloss:1.445343	train-mlogloss:1.381565
[2]	eval-mlogloss:1.238927	train-mlogloss:1.152097

# ...ä¸ç•¥...

[148]	eval-mlogloss:0.154864	train-mlogloss:0.002696
[149]	eval-mlogloss:0.155017	train-mlogloss:0.002677
> pred<-predict(train.gbdt,newdata=dtest)
> sum(diag(table(test$label,pred)))/nrow(test)
[1] 0.958

ã“ã®0.958ã¨ã„ã†ã‚¹ã‚³ã‚¢ã€å®Ÿã¯ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®0.953ã‚’ä¸Šå›žã‚Šã€æ¦‚ããƒ™ã‚¹ãƒˆã«è¿‘ã„ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®h2o.deeplearningã¨åŒã˜æ•°å—(0.958)ãªã‚“ã§ã™ãã€‚Kaggleã®MNISTã‚³ãƒ³ãƒšã§ã¯ãã“ã¾ã§ã‚¹ã‚³ã‚¢ã¯ä¼¸ã°ã›ãªã‹ã£ãŸã‚“ã§ã™ãŒã€ã„ãšã‚Œã«ã›ã‚ˆDeep Learningã«åŒ¹æ•µã™ã‚‹ã‚¹ã‚³ã‚¢ã‚’å©ãå‡ºã›ã‚‹ã¨ã„ã†ã“ã¨ã ã‘ã¯ãŠåˆ†ã‹ã‚Šã„ãŸã ã‘ã‚‹ã‹ãªã¨ã€‚

Xgboostã¨ã¯ä½•ãžã‚„

å®Ÿã¯ãã‚Œã»ã©æ–°ã—ã„æ‰‹æ³•ã¨ã„ã†ã‚ã‘ã§ã‚‚ãªã„ã®ã§ã€æ—¢åˆŠæœ¬ã«ã‚‚çµæ§‹èª¬æ˜ŽãŒè¼‰ã£ã¦ã¾ã™ã€‚ã¨ã‚Šã‚ãˆãšã€Žã¯ã˜ãƒ‘ã‚¿ã€pp.188-193ã¨ESLé‚¦è¨³æœ¬ã€Žçµ±è¨ˆçš„å¦ç¿’ã®åŸºç¤Žã€*1ç¬¬10ç« pp.385-442ã‚’ã€ESL原典ãªã‚‰Chapter 10 pp.337-388ã‚’Adaboostã®è¾ºã‚Šã‹ã‚‰èªã‚“ã§ã¿ã‚‹ã¨ã‚ˆã‚ã—ã„ã‹ã¨ã€‚Webä¸Šã‹ã‚‰è¦‹ã‚‰ã‚Œã‚‹ã‚‚ã®ã¨ã—ã¦ã¯id:smrmktã•ã‚“ã‚‚ã”æŽ¨è–¦ã®FEGさんのKDD cup 2009の解説資料ãŒåˆ†ã‹ã‚Šã‚„ã™ãã¦è‰¯ã„ã‹ã¨æ€ã„ã¾ã™*2ã€‚

ãã†è¨€ãˆã°ã€Adaboostã«ã¤ã„ã¦ã¯ã“ã®ã‚·ãƒªãƒ¼ã‚ºã®å‰å›žã®è¨˜äº‹ã§å–ã‚Šä¸Šã’ã¦ã„ã¾ã™ãï¼ˆパッケージユーザーのための機械学習(11)：番外編 - AdaBoost - 渋谷駅前で働くデータサイエンティストのブログï¼‰ã€‚Xgboostã‚‚æœ¬è³ªçš„ã«ã¯Adaboostã¨ç™ºæƒ³ã¯åŒã˜ã§ã€

ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°(boosting)ã¯ã€ä¸ŽãˆãŸæ•™å¸«ä»˜ããƒ‡ãƒ¼ã‚¿ã‚’ç”¨ã„ã¦å¦ç¿’ã‚’è¡Œã„ã€ãã®å¦ç¿’çµæžœã‚’è¸ã¾ãˆã¦é€æ¬¡ã«é‡ã¿ã®èª¿æ•´ã‚’ç¹°ã‚Šè¿”ã™ã“ã¨ã§è¤‡æ•°ã®å¦ç¿’çµæžœã‚’æ±‚ã‚ã€ãã®çµæžœã‚’çµ±åˆãƒ»çµ„ã¿åˆã‚ã›ã€ç²¾åº¦ã‚’å‘ä¸Šã•ã›ã‚‹ã€‚
ï¼ˆhttp://www1.doshisha.ac.jp/~mjin/R/32/32.htmlï¼‰

ã¨ã„ã†ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°ã®æµã‚Œã‚’æ±²ã‚€ã‚‚ã®ã§ã™ã€‚Adaboostã§ã¯æå¤±é–¢æ•°ã‚’ $L(y, f(x))$ ã¨ã—ã¦ã„ã¾ã™ãŒã€ã“ã‚Œã‚’æ±ºå®šæœ¨ãƒ»å›žå¸°æœ¨ãªã©æ¨¹æœ¨ãƒ¢ãƒ‡ãƒ«ã«æ›¿ãˆãŸã‚‚ã®ãŒXgboostã¨ã„ã†ã‹gradient boosted treeã§ã™ã€‚ãã†ã™ã‚‹ã“ã¨ã§ç‰¹å¾´é‡ãŒé€£ç¶šå¤‰æ•°ãƒ»ã‚«ãƒ†ã‚´ãƒªå¤‰æ•°ã§ã‚ã£ã¦ã‚‚å¯¾å¿œãŒå®¹æ˜“ã§ã€å¤–ã‚Œå€¤ã‚„æ¬ æå€¤ã«ã‚‚å¼·ã„å¦ç¿’å™¨ã‚’ä½œã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚ã¾ãŸAdaboostãŒå„ã‚¹ãƒ†ãƒƒãƒ—ã§æ›´æ–°ã™ã‚‹éš›ã«å¦ç¿’ãƒ‡ãƒ¼ã‚¿å…¨ä½“ã‚’ä½¿ã£ã¦ã„ãŸã®ã‚’æ”¹ã‚ã€ãƒ©ãƒ³ãƒ€ãƒ ã«æŠ½å‡ºã—ãŸã‚µãƒ³ãƒ—ãƒ«ã®ã¿ã‚’ç”¨ã„ã¦ã„ã‚‹ç‚¹ã§ã‚‚ç•°ãªã‚Šã¾ã™ã€‚ã“ã®è¾ºã¯ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã«ç™ºæƒ³ãŒè¿‘ã„ã‹ãªï¼Ÿã¨ã„ã†æ°—ã‚‚ã—ã¾ã™ãã€‚

ã¡ãªã¿ã«ã€Žçµ±è¨ˆçš„å¦ç¿’ã®åŸºç¤Žã€pp.409-412ã«ã¯ã‚‚ã†å°‘ã—ç´°ã‹ã„èª¬æ˜ŽãŒè¼‰ã£ã¦ã„ã¾ã™ã€‚ç«¯çš„ã«è¨€ãˆã°å…ƒã€…æ¨¹æœ¨ãƒ¢ãƒ‡ãƒ«ã‚’ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°ã«é©ç”¨ã—ãŸãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨ã¨ã„ã†ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ãŒã‚ã‚Šã€ãã®æå¤±é–¢æ•°ã‚’æœ€å°åŒ–ã™ã‚‹æœ¨ã®çµ„ã¿åˆã‚ã›ã‚’æ±‚ã‚ã‚‹éš›ã®æœ€é©åŒ–æ‰‹æ³•ã¨ã—ã¦æœ€æ€¥é™ä¸‹æ³•ã‚’ç”¨ã„ã¦ã„ã‚‹ã¨ã“ã‚ã‚’ã€å‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°ã§ã¯å„ã‚¹ãƒ†ãƒƒãƒ—ã§å¯èƒ½ãªé™ã‚Šè² ã®å‹¾é…ãŒå¾—ã‚‰ã‚Œã‚‹ã‚ˆã†ãªæœ¨ã‚’OLSã§æŽ¨å®šã—ã¦å¾—ã‚‹ã¨ã„ã†ã“ã¨ã‚’ã‚„ã‚‹ã€ã¿ãŸã„ã§ã™*3ã€‚

ã€Žçµ±è¨ˆçš„å¦ç¿’ã®åŸºç¤Žã€p.413åŠã³FEGã•ã‚“ã®è³‡æ–™ã«ã¯ãã®ã‚‚ã®ã‚ºãƒãƒªã€Œå‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨ã€ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ãŒè¼‰ã£ã¦ã„ã¾ã™ã€‚ã‚¹ã‚¯ãƒ©ãƒƒãƒã‹ã‚‰å®Ÿè£…ã—ã¦ã¿ãŸã„äººã¯å‚è€ƒã«ã—ã¦ã¿ã‚‹ã¨è‰¯ã„ã§ã—ã‚‡ã†ã€‚ä»¥ä¸‹ä¸€éƒ¨ä»–è³‡æ–™ã‚’å‚ç…§ã—ã¦ä¿®æ£ã—ãªãŒã‚‰å¼•ç”¨*4ã€‚

ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ 10.3 å‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨

1. $f_0 (x) = argmin_{\gamma} \sum^N_{i=1} L (y_i, \gamma)$ ã¨ãªã‚‹ã‚ˆã†ã«åˆæœŸåŒ–ã™ã‚‹ã€‚ $f_0 (x) = \gamma$ ã§ã‚ã‚‹ã€‚

2. $m = 1$ ã‹ã‚‰ $M$ ã«å¯¾ã—ã¦ã€ä»¥ä¸‹ã‚’è¡Œã†ã€‚

(a) æ·»ãˆå—ã‚’ãƒ©ãƒ³ãƒ€ãƒ ã«å…¥ã‚Œæ›¿ãˆãŸä¸Šã§ã€ $i = 1, 2, \cdots, N$ ã«å¯¾ã—ã¦æ¬¡ã‚’è¨ˆç®—ã™ã‚‹ã€‚
$r_{im} = - \left[ \frac{\partial L(y_i, f(x_i))}{\partial f(x_i)} \right]_{f=f_{m-1}}$

(b) å›žå¸°æœ¨ã‚’ç›®çš„å¤‰æ•° $r_{im}$ ã«å¯¾ã—ã¦å›žå¸°æœ¨ã‚’æŽ¨å®šã—ã€ãã®çµ‚ç«¯é ˜åŸŸã‚’ $R_{jm} (j = 1, 2, \cdots, J_m)$ ã¨ã™ã‚‹ã€‚

(c) $j = 1, 2, \cdots, J_m$ ã«å¯¾ã—ã¦æ¬¡ã‚’è¨ˆç®—ã™ã‚‹ã€‚
$\gamma_{jm} = argmin_{\gamma} \displaystyle \sum_{x_i \in R_{jm}} L (y_i, f_{m-1}(x_i) + \gamma )$

(d) $f_m(x) = f_{m-1}(x) + \sum^{J_m}_{j=1} \gamma_{jm} I(x \in R_{jm})$ ã®ã‚ˆã†ã«æ›´æ–°ã™ã‚‹ã€‚

3. $\hat{f}(x) = f_M(x)$ ã‚’å‡ºåŠ›ã™ã‚‹ã€‚

ï¼ˆâ€»ç†è€…æ³¨ï¼šã“ã“ã§ã¯å›žå¸°æœ¨ã‚’æƒ³å®šã€ $f(x)$ ã¯äºˆæ¸¬é–¢æ•°ã€ $L(y, f(x))$ ã¯å¦ç¿’ãƒ‡ãƒ¼ã‚¿ä¸Šã® $y$ ã«å¯¾ã™ã‚‹æå¤±é–¢æ•°ã€ $I(x \in R_{jm})$ ã¯æŒ‡ç¤ºé–¢æ•°ã§ $x$ ãŒ $R_{jm}$ ã«å«ã¾ã‚Œã‚‹å ´åˆ1ã‚’è¿”ã™ï¼‰

2.(d)ã®å¼ã®æ›´æ–°éƒ¨ã‚’å˜ãªã‚‹(a)ã¨ä½•ã‹ã—ã‚‰ã®å¦ç¿’ä¿‚æ•°ã¨ã®ç©ã«ã™ã‚‹ï¼ˆã¤ã¾ã‚Š $f_m(x) = f_{m-1}(x) - \mu \gamma_m$ ï¼‰ã¨æœ€æ€¥é™ä¸‹æ³•ã«ãªã‚‹ã®ã§ã™ãŒã€ã“ã®å‹¾é…ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°æœ¨ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã¯ã‚ˆã‚Šå·§ã¿ãªæ›´æ–°ãŒè¡Œã‚ã‚Œã¦ã„ã‚‹ã“ã¨ãŒåˆ†ã‹ã‚‹ã‹ã¨æ€ã„ã¾ã™ã€‚å³ã¡ã€(b)ã®ã‚¹ãƒ†ãƒƒãƒ—ã§æ¤œå‡ºã•ã‚ŒãŸèª¤åˆ¤å®šé ˜åŸŸã«ã‹ã‹ã‚‹ã‚µãƒ³ãƒ—ãƒ«ã ã‘ã‚’æŠœãå‡ºã—ã¦ $f(x)$ ã‚’æ›´æ–°ã™ã‚‹ã¨ã„ã†ã‚ã‘ã§ã™ã€‚ã“ã‚Œã§æœ€æ€¥é™ä¸‹æ³•ã‚ˆã‚Šã‚‚ã•ã‚‰ã«greedyã«æ›´æ–°ã§ãã‚‹ã¨ã„ã†ã‚«ãƒ©ã‚¯ãƒªã§ã™ã€‚

ãã®ä»–ã€Žçµ±è¨ˆçš„å¦ç¿’ã®åŸºç¤Žã€p.413ä»¥é™ã«ã¯Xgboostã®ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®ãŸã‚ã«å¿…è¦ãªçŸ¥è˜ãŒã„ãã¤ã‹è¿°ã¹ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚ä¾‹ãˆã°æœ¨ã®å¤§ãã•(tree size) $J$ ã¯æ¦‚ã $4 \leq J \leq 8$ ãŒå¦¥å½“ã§ã‚ã‚‹ä¸Šã«æ¦‚ã6ãã‚‰ã„ã§è‰¯ã‹ã‚ã†ã¨ã‹*5ã€ç¹°ã‚Šè¿”ã— $M$ ã¯ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã®æ—©æœŸæ‰“ã¡åˆ‡ã‚Šæˆ¦ç•¥ã¨åŒã˜ã§ã‚ã¾ã‚Šå¤§ããã—éŽãŽã‚‹ãªã¨ã‹ã€ä¸Šè¨˜ã‚¹ãƒ†ãƒƒãƒ—2.(d)ã®å¼ã‚’ $f_m(x) = f_{m-1}(x) + \eta \sum^{J_m}_{j=1} \gamma_{jm} I(x \in R_{jm})$ ã¨ã—ã¦æœ¨ã®è²¢çŒ®åº¦ $\nu$ ã‚’ $0 \leq \nu \leq 1$ ã®ç¯„å›²å†…ã§å°ã•ã‚ï¼ˆä¾‹ãˆã°0.2ã‚„0.6ã¨ã‹ï¼‰ã«è¨å®šã›ã‚ˆã¨ã‹*6ã€éƒ¨åˆ†æ¨™æœ¬åŒ–çŽ‡ $\eta$ ã‚’0.5ç¨‹åº¦ã«ã—ã‚ã¨ã‹*7ã€ãã‚“ãªã“ã¨ãŒæ›¸ã„ã¦ã‚ã£ã¦ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®å‚è€ƒã«ãªã‚‹ã‹ã¨ã€‚

ãªãŠã€ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã«ã¤ã„ã¦ã¯本家のGitHubにもコメントがありã€

Control Overfitting

When you observe high training accuracy, but low tests accuracy, it is likely that you encounter overfitting problem.

There are in general two ways that you can control overfitting in xgboost

The first way is to directly control model complexity

This include max_depth, min_child_weight and gamma

The second way is to add randomness to make training robust to noise

This include subsample, colsample_bytree

You can also reduce stepsize eta, but needs to remember to increase num_round when you do so.

ã¾ãã“ã‚Œã¯ã¾ã•ã«æ›¸ã‹ã‚Œã¦ã„ã‚‹é€šã‚Šã§ã€ã€Œãƒã‚¤ã‚¢ã‚¹ï¼ãƒãƒªã‚¢ãƒ³ã‚¹ãƒˆãƒ¬ãƒ¼ãƒ‰ã‚ªãƒ•ã‚’è€ƒãˆã¦ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã›ã‚ˆã€ã£ã¦ã“ã¨ã§ã™ãã€‚ãªãŠã€AdabooståŒæ§˜åŸºæœ¬çš„ã«ã¯ã€Œèª¤åˆ¤å®šã—ãŸå¦ç¿’ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ã©ã‚“ã©ã‚“ç›´åˆ—ã«è£œæ£ã—ã¦ã„ãã€ã‚¿ã‚¤ãƒ—ã®åˆ†é¡žå™¨ãªã®ã§ã€ç¹°ã‚Šè¿”ã—å›žæ•°ã‚’å¢—ã‚„ã™ã»ã©éŽå¦ç¿’ã—ã‚„ã™ããªã‚‹ã¨ã„ã†ç‚¹ã«æ³¨æ„ãŒå¿…è¦ã§ã™ã€‚ã€Žçµ±è¨ˆçš„å¦ç¿’ã®åŸºç¤Žã€p.418ã®å›³ã‚’è¦‹ã‚‹ã¨ã€å®Ÿéš›ã«ç¸®å°çŽ‡etaã®å€¤ã«ã‚ˆã£ã¦ã¯ç¹°ã‚Šè¿”ã—å›žæ•°ãŒå¢—ãˆã‚‹ã»ã©éŽå¦ç¿’ãŒé€²ã‚“ã§ç²¾åº¦ãŒæ‚ªåŒ–ã™ã‚‹æ§˜åãŒè¦‹ã¦å–ã‚Œã¾ã™ã€‚

æ±ºå®šå¢ƒç•Œã‚’æã„ã¦ã¿ã‚‹ï¼šXORãƒ‘ã‚¿ãƒ¼ãƒ³

ã¨ã„ã†ã“ã¨ã§ã€ã“ã®ã‚·ãƒªãƒ¼ã‚ºæ’ä¾‹ã®XORãƒ‘ã‚¿ãƒ¼ãƒ³ãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã„ã¾ã—ã‚‡ã†ã€‚GitHub ãƒªãƒã‚¸ãƒˆãƒªã‹ã‚‰シンプル版ã€複雑版ã‚’æŒã£ã¦ãã¦ã€ãã‚Œãžã‚Œxors, xorcã¨ã„ã†åå‰ã§ã‚¤ãƒ³ãƒãƒ¼ãƒˆã—ã¦ãŠãã¾ã™ã€‚

{xgboost}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã¯ãã®ä»–ã®æ•°å¤šãã®æ©Ÿæ¢°å¦ç¿’ç³»Rãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã¨ã¯ç•°ãªã‚Šã€ä½•æ•…ã‹formulaå¼ã«ã¯å¯¾å¿œã—ã¦ã„ã¾ã›ã‚“ï¼ˆæ±—ï¼‰ã€‚ãŠãã‚‰ãå¤§è¦æ¨¡ãƒ‡ãƒ¼ã‚¿å¯¾ç–ãªã®ã ã¨æ€ã‚ã‚Œã¾ã™ãŒã€ã‚¹ãƒ‘ãƒ¼ã‚¹ãƒžãƒˆãƒªã‚¯ã‚¹å½¢å¼ã‚’å«ã‚€ãƒžãƒˆãƒªã‚¯ã‚¹åž‹ã§ã®ãƒ‡ãƒ¼ã‚¿èªã¿è¾¼ã¿ã‚’åŸºæœ¬ã¨ã—ã¦ã„ã¾ã™ã€‚

ãƒ¢ãƒ‡ãƒ«ã®å¦ç¿’ã«ä½¿ã†é–¢æ•°ã¯xgboostã¨xgb.trainã®2ã¤ãŒã‚ã‚Šã¾ã™ãŒã€xgb.trainã®æ–¹ãŒè‰²ã€…èª¿æ•´ã—ã‚„ã™ã„ã®ã§ãŠè–¦ã‚ã§ã™ã€‚ç‰¹ã«ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿å´ã®æ£è§£ãƒ©ãƒ™ãƒ«ã‚‚æŒã£ã¦ã„ã¦cross validationã—ãŸã„æ™‚ã«ã¯ã€xgb.trainé–¢æ•°ã§ã‚ã‚Œã°watchlistå¼•æ•°ã‚’ä½¿ã£ã¦å¦ç¿’ã‚¹ãƒ†ãƒƒãƒ—ã”ã¨ã®æå¤±é–¢æ•°ã®å¤‰å‹•ã‚’è¦‹ã¦ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã«ç”Ÿã‹ã™ã¨ã„ã†èŠ¸å½“ã‚‚ã§ãã¾ã™ã€‚

# XORãƒ‡ãƒ¼ã‚¿èªã¿è¾¼ã¿
> xors<-read.table("xor_simple.txt",header=T)
> xorc<-read.table("xor_complex.txt",header=T)

# ã‚°ãƒªãƒƒãƒ‰ã‚’ä½œã‚‹
> px<-seq(-4,4,0.03)
> py<-seq(-4,4,0.03)
> pgrid1<-expand.grid(px,py)
> names(pgrid1)<-names(xors)[-3]

# ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ãƒãƒ¼ãƒ‰
> library(xgboost)
> library(Matrix)

# å…ƒãƒ‡ãƒ¼ã‚¿ã®ãƒ©ãƒ™ãƒ«ãŒè‰¯ããªã„ã®ã§ç›´ã™
> xors$label<-xors$label-1
> xorc$label<-xorc$label-1
# sparse.model.matrixå½¢å¼ã«ç›´ã™
> xors.mx<-sparse.model.matrix(label~.,xors)
> xorc.mx<-sparse.model.matrix(label~.,xorc)
> pgrid1.mx<-sparse.model.matrix(~.,pgrid1)

# xgb.DMatrixå½¢å¼ã«ç›´ã™
> dxors<-xgb.DMatrix(xors.mx,label=xors$label)
> dxorc<-xgb.DMatrix(xorc.mx,label=xorc$label)
> dpgrid1<-xgb.DMatrix(pgrid1.mx)

# xgboostãƒ¢ãƒ‡ãƒ«ã‚’å¦ç¿’ã•ã›ã‚‹ã€‚ã“ã“ã§ã¯xgb.trainé–¢æ•°ã‚’ä½¿ã†è¨˜æ³•ã§
> xors.gbdt<-xgb.train(params=list(objective="binary:logistic",eval_metric="logloss"),data=dxors,nrounds=100)
> xorc.gbdt<-xgb.train(params=list(objective="binary:logistic",eval_metric="logloss"),data=dxorc,nrounds=100)

# ã‚·ãƒ³ãƒ—ãƒ«ãƒ‘ã‚¿ãƒ¼ãƒ³
> plot(c(),type='n',xlim=c(-4,4),ylim=c(-4,4))
> par(new=T)
> rect(0,0,4,4,col='#aaaaff')
> par(new=T)
> rect(-4,0,0,4,col='#ffaaaa')
> par(new=T)
> rect(-4,-4,0,0,col='#aaaaff')
> par(new=T)
> rect(0,-4,4,0,col='#ffaaaa')
> par(new=T)
> plot(xors[,-3],col=c(rep('blue',50),rep('red',50)),xlim=c(-4,4),ylim=c(-4,4),pch=19,cex=2.5)
> par(new=T)
> contour(px,py,array(predict(xors.gbdt,newdata=dpgrid1),dim = c(length(px),length(py))),levels = 0.5,drawlabels = T,col='purple',lwd=5,xlim=c(-4,4),ylim=c(-4,4))

# è¤‡é›‘ãƒ‘ã‚¿ãƒ¼ãƒ³
> xorc.gbdt<-xgb.train(params=list(objective="binary:logistic",eval_metric="logloss"),data=dxorc,nrounds=100)
> plot(c(),type='n',xlim=c(-4,4),ylim=c(-4,4))
> par(new=T)
> rect(0,0,4,4,col='#aaaaff')
> par(new=T)
> rect(-4,0,0,4,col='#ffaaaa')
> par(new=T)
> rect(-4,-4,0,0,col='#aaaaff')
> par(new=T)
> rect(0,-4,4,0,col='#ffaaaa')
> par(new=T)
> plot(xorc[,-3],col=c(rep('blue',50),rep('red',50)),xlim=c(-4,4),ylim=c(-4,4),pch=19,cex=2.5)
> par(new=T)
> contour(px,py,array(predict(xorc.gbdt,newdata=dpgrid1),dim = c(length(px),length(py))),levels = 0.5,drawlabels = T,col='purple',lwd=5,xlim=c(-4,4),ylim=c(-4,4))

å˜ç´”ãƒ‘ã‚¿ãƒ¼ãƒ³ã«ãŠã‘ã‚‹æ±ºå®šå¢ƒç•Œã¯æ™®é€šã®æ±ºå®šæœ¨ã¨å®Œå…¨ã«åŒã˜ã§ã™ãŒã€è¤‡é›‘ãƒ‘ã‚¿ãƒ¼ãƒ³ã®æ–¹ã¯é€šå¸¸ã®æ±ºå®šæœ¨ã‚ˆã‚Šè¤‡é›‘ãªä¸Šã«ã€ä»¥å‰è¦‹ãŸãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®æ±ºå®šå¢ƒç•Œã¨ã‚‚é›°å›²æ°—ãŒç•°ãªã‚‹ã‚ˆã†ã§ã™ã€‚ãŸã ã—ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®å‰²ã¨ãƒãƒãƒ£ãƒ¡ãƒãƒ£ãªæ„Ÿã˜ã«æ¯”ã¹ã‚‹ã¨ã€çœŸã®æ±ºå®šå¢ƒç•Œï¼ˆãƒ—ãƒãƒƒãƒˆå†…ã®è–„ã„èµ¤ã¨è–„ã„é’ã§å¡—ã‚Šåˆ†ã‘ãŸå¢ƒç•Œï¼‰ã«ã‹ãªã‚Šè¿‘ã„ã¨ã„ã†å°è±¡ã¯ã‚ã‚Šã¾ã™ãã€‚

æ¬¡ã«ã€ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®å½±éŸ¿ã‚’è¦‹ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

# ã‚„ã‚„ã‚ªãƒ¼ãƒãƒ¼ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°å¼·ã‚
> xorc.gbdt<-xgb.train(params=list(objective="binary:logistic",eval_metric="logloss",eta=1,max_depth=8),data=dxorc,nrounds=100)
> plot(c(),type='n',xlim=c(-4,4),ylim=c(-4,4))
> par(new=T)
> rect(0,0,4,4,col='#aaaaff')
> par(new=T)
> rect(-4,0,0,4,col='#ffaaaa')
> par(new=T)
> rect(-4,-4,0,0,col='#aaaaff')
> par(new=T)
> rect(0,-4,4,0,col='#ffaaaa')
> par(new=T)
> plot(xorc[,-3],col=c(rep('blue',50),rep('red',50)),xlim=c(-4,4),ylim=c(-4,4),pch=19,cex=2.5)
> par(new=T)
> contour(px,py,array(predict(xorc.gbdt,newdata=dpgrid1),dim = c(length(px),length(py))),levels = 0.5,drawlabels = T,col='purple',lwd=5,xlim=c(-4,4),ylim=c(-4,4))

# ã‚„ã‚„æ±ŽåŒ–å¼·ã‚
> xorc.gbdt<-xgb.train(params=list(objective="binary:logistic",eval_metric="logloss",eta=0.1,max_depth=4),data=dxorc,nrounds=100)
> plot(c(),type='n',xlim=c(-4,4),ylim=c(-4,4))
> par(new=T)
> rect(0,0,4,4,col='#aaaaff')
> par(new=T)
> rect(-4,0,0,4,col='#ffaaaa')
> par(new=T)
> rect(-4,-4,0,0,col='#aaaaff')
> par(new=T)
> rect(0,-4,4,0,col='#ffaaaa')
> par(new=T)
> plot(xorc[,-3],col=c(rep('blue',50),rep('red',50)),xlim=c(-4,4),ylim=c(-4,4),pch=19,cex=2.5)
> par(new=T)
> contour(px,py,array(predict(xorc.gbdt,newdata=dpgrid1),dim = c(length(px),length(py))),levels = 0.5,drawlabels = T,col='purple',lwd=5,xlim=c(-4,4),ylim=c(-4,4))

etaã®å€¤ã‚’å¤‰ãˆã‚‹ã“ã¨ã§ã‚ªãƒ¼ãƒãƒ¼ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°ã—ãŸã‚Šã€é€†ã«æ±ŽåŒ–ã‚’å¼·ã‚ã‚‹ã“ã¨ã‚‚ã§ãã‚‹ã“ã¨ãŒè¦‹ã¦å–ã‚Œã¾ã™ãã€‚ä»Šå›žã®XORãƒ‡ãƒ¼ã‚¿ã¯æ¬¡å…ƒæ•°ã‚‚ã‚µãƒ³ãƒ—ãƒ«ã‚µã‚¤ã‚ºã‚‚å°ã•ã„ã®ã§ä»–ã¯ã„ã˜ã£ã¦ã„ã¾ã›ã‚“ãŒã€ã‚‚ã¡ã‚ã‚“subsampleã‚„colsample_bytreeãªã©ã‚’èª¿æ•´ã™ã‚‹ã“ã¨ã§ã‚ˆã‚Šå·§ã¿ã«ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

æ±ºå®šå¢ƒç•Œã‚’æã„ã¦ã¿ã‚‹ï¼šç·šå½¢åˆ†é›¢å¯èƒ½ãƒ‘ã‚¿ãƒ¼ãƒ³

å®Ÿã¯è‹±èªžãƒ–ãƒã‚°ã§ã¯ç·šå½¢åˆ†é›¢å¯èƒ½ãƒ‘ã‚¿ãƒ¼ãƒ³ã§ã‚‚æ±ºå®šå¢ƒç•Œã‚’æãã¨ã„ã†ã®ã‚’ã‚„ã£ã¦ã„ã‚‹ã®ã§ã€ã“ã¡ã‚‰ã§ã‚‚ã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚GitHub ãƒªãƒã‚¸ãƒˆãƒªã‹ã‚‰2クラスパターンã€3クラスパターンã‚’DLã—ã¦ãã¦ä»¥ä¸‹ã®ã‚ˆã†ã«ã‚¤ãƒ³ãƒãƒ¼ãƒˆã—ã¦ãã ã•ã„ã€‚

# ç·šå½¢åˆ†é›¢å¯èƒ½ãƒ‘ã‚¿ãƒ¼ãƒ³
> dbi<-read.table("linear_bi.txt",header=T)
> dml<-read.table("linear_multi.txt",header=T)

# ã‚°ãƒªãƒƒãƒ‰ã‚’ä½œã‚‹
> px2<-seq(-0.5,4.5,0.03)
> py2<-seq(-0.5,4.5,0.03)
> pgrid2<-expand.grid(px2,py2)
> names(pgrid2)<-names(dbi)[-3]

# sparse.model.matrixå½¢å¼ã«ç›´ã™
> dbi.mx<-sparse.model.matrix(label~.,dbi)
> dml.mx<-sparse.model.matrix(label~.,dml)
> pgrid2.mx<-sparse.model.matrix(~.,pgrid2)

# xgb.DMatrixå½¢å¼ã«ç›´ã™
> ddbi<-xgb.DMatrix(dbi.mx,label=dbi$label)
> ddml<-xgb.DMatrix(dml.mx,label=dml$label)
> dpgrid2<-xgb.DMatrix(pgrid2.mx)

# xgb.trainé–¢æ•°ã§å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã‚’æŽ¨å®šã™ã‚‹
> dbi.gbdt<-xgb.train(params=list(objective="binary:logistic",eval_metric="logloss"),data=ddbi,nrounds=100)
> dml.gbdt<-xgb.train(params=list(objective="multi:softmax",num_class=3,eval_metric="mlogloss"),data=ddml,nrounds=100)
# å¤šã‚¯ãƒ©ã‚¹ã®å ´åˆã¯objectiveã¨num_classã®æŒ‡å®šã«æ³¨æ„

# 2ã‚¯ãƒ©ã‚¹ãƒ‘ã‚¿ãƒ¼ãƒ³
> plot(c(),type='n',xlim=c(-0.5,3.5),ylim=c(-0.5,3.5))
> par(new=T)
> polygon(c(-0.5,-0.5,3.5),c(3.5,-0.5,-0.5),col='#aaaaff')
> par(new=T)
> polygon(c(-0.5,3.5,3.5),c(3.5,-0.5,3.5),col='#ffaaaa')
> par(new=T)
> plot(dbi[,-3],pch=19,col=c(rep('blue',25),rep('red',25)),cex=3,xlim=c(-0.5,3.5),ylim=c(-0.5,3.5))
> par(new=T)
> contour(px2,py2,array(predict(dbi.gbdt,newdata=dpgrid2),dim = c(length(px2),length(py2))),xlim=c(-0.5,3.5),ylim=c(-0.5,3.5),lwd=6,col='purple',levels = 0.5,drawlabels = T)

# 3ã‚¯ãƒ©ã‚¹ãƒ‘ã‚¿ãƒ¼ãƒ³
> plot(c(),type='n',xlim=c(-0.5,4.5),ylim=c(-0.5,4.5))
> par(new=T)
> polygon(c(-0.5,-0.5,3.5),c(3.5,-0.5,-0.5),col='#aaaaff')
> par(new=T)
> polygon(c(-0.5,3.5,4.5,4.5,1.0,-0.5),c(3.5,-0.5,-0.5,1.0,4.5,4.5),col='#ffaaaa')
> par(new=T)
> polygon(c(1.0,4.5,4.5),c(4.5,1.0,4.5),col='#ccffcc')
> par(new=T)
> plot(dml[,-3],pch=19,col=c(rep('blue',25),rep('red',25),rep('green',25)),cex=3,xlim=c(-0.5,4.5),ylim=c(-0.5,4.5))
> par(new=T)
> contour(px2,py2,array(predict(dml.gbdt,newdata=dpgrid2),dim=c(length(px2),length(py2))),xlim=c(-0.5,4.5),ylim=c(-0.5,4.5),col="purple",lwd=6,drawlabels=T,levels=c(0.5,1.5))

ã‚¢ãƒ’ãƒ£ãƒ’ãƒ£ãƒ’ãƒ£ãƒ’ãƒ£ã€å…¨ç„¶åˆ†é¡žã§ãã¦ãªã„orzã€€ã£ã¦ã‹ã“ã®ç·šå½¢åˆ†é›¢å¯èƒ½ãƒ‘ã‚¿ãƒ¼ãƒ³ã«å¯¾ã™ã‚‹æ±ºå®šå¢ƒç•Œã®ãƒ€ãƒ¡ã•åŠ æ¸›ã¯å®Œå…¨ã«æ±ºå®šæœ¨ã®ãã‚Œã‚’è¸è¥²ã—ã¦ã‚‹æ„Ÿã˜ã§ã™ãã€‚ã€‚ã€‚ã¨ã„ã†ã“ã¨ã§ã€ã„ã‹ãªXgboostã¨ã„ãˆã©ã‚‚å…¸åž‹çš„ãªç·šå½¢åˆ†é›¢å¯èƒ½ãƒ‘ã‚¿ãƒ¼ãƒ³ã«å¯¾ã—ã¦ã¯ã†ã¾ãæ©Ÿèƒ½ã—ãªã„ã¿ãŸã„ã§ã™ã€‚

ã¾ã¨ã‚

Xgboostã¯ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°æ¬¡ç¬¬ã§Deep Learningã«è¿«ã‚‹é«˜ç²¾åº¦ã‚’ã€ã—ã‹ã‚‚å‰²ã¨ä½Žã„ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã‚³ã‚¹ãƒˆ*8ã§å®Ÿç¾ã§ãã‚‹
ãªã®ã§ç·šå½¢åˆ†é›¢ä¸å¯èƒ½ãƒ‘ã‚¿ãƒ¼ãƒ³ã«å¯¾ã—ã¦ã¯æ¥µã‚ã¦å¼·åŠ›ãªä¸€æ–¹ã§ã€ç·šå½¢åˆ†é›¢å¯èƒ½ãƒ‘ã‚¿ãƒ¼ãƒ³ã«å¯¾ã—ã¦ã¯ã†ã¾ãæ©Ÿèƒ½ã—ãªã„å¯èƒ½æ€§ãŒé«˜ã„

ã£ã¦ã¨ã“ã‚ã§ã—ã‚‡ã†ã‹ã€‚è‰²ã€…ãªæ„å‘³ã§èˆˆå‘³æ·±ã„åˆ†é¡žå™¨ã ã¨æ„Ÿã˜ã‚‹ã®ã§ã€ä»Šå¾Œã‚‚æŠ˜ã«è§¦ã‚Œãã®æŒ™å‹•ã‚’è©¦ã—ãªãŒã‚‰ç†è§£ã‚’æ·±ã‚ã¦ã„ã“ã†ã‹ãªã¨æ€ã£ã¦ã¾ã™ã€‚

*2:å®Ÿã¯ã‹ãªã‚Šã®éƒ¨åˆ†ãŒESLã‹ã‚‰ã®å¼•ç”¨ã ã£ãŸã‚Šã™ã‚‹ã®ã§ã€ã‚«ã‚¹ãƒ†ãƒ©æœ¬ãŒæ‰‹ã«å…¥ã‚‰ãªã„æ–¹ã¯ã“ã¡ã‚‰ã‚’èªã‚“ã§ã‚‚è‰¯ã„ã‹ã‚‚

*4:èª¤è¨³ã¨æ€ã—ãéƒ¨åˆ†ã‚„èª¬æ˜ŽãŒåˆ†ã‹ã‚Šã«ãã„ã¨ã“ã‚ã‚’ç›´ã—ãŸ

*5:{xgboost}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã¯max_depth

*6:{xgboost}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã¯eta

*7:{xgboost}ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§ã¯subsample

*8:ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®ç¨®é¡žãŒé•ã†ã®ã§ã€ä¾‹ãˆã°Deep Learningã¨é•ã£ã¦ãƒ¦ãƒ‹ãƒƒãƒˆæ•°ã‚’å»¶ã€…ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã™ã‚‹ã¿ãŸã„ãªè‹¦åŠ´ã¯è¦ã‚‰ãªã„