LightGBMã§downsampling+bagging - u++ã®å‚™å¿˜éŒ²

ã¯ã˜ã‚ã«

æ–°å¹´åˆã®æŠ€è¡“ç³»ã®è¨˜äº‹ã§ã™ã€‚

å¹´æœ«å¹´å§‹ã‹ã‚‰æœ€è¿‘ã«ã‹ã‘ã¦ã¯ã€PyTorchã®å‹‰å¼·ãªã©ã‚¤ãƒ³ãƒ—ãƒƒãƒˆé‡è¦–ã§éŽã”ã—ã¦ã„ã¾ã™ã€‚ãã®ä¸€ç’°ã§ä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ã®æ‰±ã„ã‚‚å‹‰å¼·ã—ã¾ã—ãŸã€‚

ã‚¯ãƒ©ã‚¹æ¯”1:99ã®äººå·¥çš„ãªä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ä½¿ã£ã¦ãƒ€ã‚¦ãƒ³ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã‚’è©¦ã—ã¦ã‚‹ã‘ã©ã€ãƒã‚«ã¿ãŸã„ã«è² ä¾‹ã‚’æ¨ã¦ã¡ã‚ƒã£ã¦ã‚‚æ„å¤–ã¨å¤§ä¸ˆå¤«ãªã‚“ã ãªã€‚è¨ˆç®—æ™‚é–“ãŒåœ§å€’çš„ã«æ¸›ã‚‹ã®ã§ã€ãã®æ™‚é–“ã§ã‚¢ãƒ³ã‚µãƒ³ãƒ–ãƒ«çš„ãªã“ã¨ã™ã‚Œã°ç²¾åº¦ã‚‚ç¢ºä¿ã§ããã†ã€‚
— u++ (@upura0) January 8, 2019

ä¸Šè¨˜ã®ãƒ„ã‚¤ãƒ¼ãƒˆã‚’å¥‘æ©Ÿã«å¤šãã®ãƒªãƒ—ãƒ©ã‚¤ãªã©ã§æƒ…å ±ã‚’é ‚æˆ´ã—ã¾ã—ãŸãŒã€ä»¥å‰ã«è©±é¡Œã«ãªã£ãŸã€Œdownsampling+baggingã€ã®æ‰‹æ³•ãŒè‰¯ã•ãã†ã§ã—ãŸã€‚æœ¬è¨˜äº‹ã§ã¯ã€æ¨¡æ“¬çš„ã«ä½œæˆã—ãŸãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã«LightGBMã‚’ä½¿ã„ã€ã€Œdownsampling+baggingã€ã®æ‰‹æ³•ã‚’è©¦ã—ã¦ã¿ãŸã„ã¨æ€ã„ã¾ã™ã€‚

imbalanced data ã«å¯¾ã™ã‚‹å¯¾å‡¦ã‚’å‹‰å¼·ã—ã¦ã„ãŸã®ã ã‘ã©ï¼Œ[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm â€¦ ã§ã€Œundersampling + bagging ã‚’ã›ã‚ˆã€ã¨ã„ã†çµè«–ãŒå‡ºã¦ã„ãŸï¼Ž
— â„¢ (@tmaehara) July 29, 2017

tjo.hatenablog.com

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ä½œæˆ

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ä½œæˆã«å½“ãŸã£ã¦ã¯ã€ä¸‹è¨˜ã®è¨˜äº‹ã‚’å‚è€ƒã«ã—ã¾ã—ãŸã€‚

blog.amedama.jp

from sklearn.datasets import make_classification
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import StratifiedShuffleSplit

args = {
    'n_samples': 7000000,
    'n_features': 80,
    'n_informative': 3,
    'n_redundant': 0,
    'n_repeated': 0,
    'n_classes': 2,
    'n_clusters_per_class': 1,
    'weights': [0.99, 0.01],
    'random_state': 42,
}

X, y = make_classification(**args)

ç›®çš„å¤‰æ•°ã¯{0, 1}ã®2å€¤åˆ†é¡žã§ã€åˆè¨ˆ700ä¸‡ä»¶ã®ãƒ‡ãƒ¼ã‚¿ã®ã†ã¡æ£ä¾‹ï¼ˆãƒ©ãƒ™ãƒ«1ï¼‰ãŒç´„1%ã®ä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ã‚’ä½œæˆã—ã¾ã—ãŸã€‚

f:id:upura:20190112140214p:plain

ãƒ©ãƒ™ãƒ«ã®å‰²åˆãŒå‡ç‰ã«ãªã‚‹ã‚ˆã†ã«ã€ãƒ‡ãƒ¼ã‚¿ã‚’å¦ç¿’ãƒ»æ¤œè¨¼ãƒ»ãƒ†ã‚¹ãƒˆç”¨ã«åˆ†å‰²ã—ã¦ãŠãã¾ã™ã€‚

def imbalanced_data_split(X, y, test_size=0.2):
    sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=0)
    for train_index, test_index in sss.split(X, y):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = imbalanced_data_split(X, y, test_size=0.2)
# for validation
X_train2, X_valid, y_train2, y_valid = imbalanced_data_split(X_train, y_train, test_size=0.2)

LightGBM

ã¾ãšã¯ã€æ™®é€šã«LightGBMã‚’è©¦ã—ã¦ã¿ã¾ã™ã€‚

import lightgbm as lgb
from sklearn.metrics import roc_auc_score

lgbm_params = {
    'learning_rate': 0.1,
    'num_leaves': 8,
    'boosting_type' : 'gbdt',
    'reg_alpha' : 1,
    'reg_lambda' : 1,
    'objective': 'binary',
    'metric': 'auc',
}

def lgbm_train(X_train_df, X_valid_df, y_train_df, y_valid_df, lgbm_params):
    lgb_train = lgb.Dataset(X_train_df, y_train_df)
    lgb_eval = lgb.Dataset(X_valid_df, y_valid_df, reference=lgb_train)

    # ä¸Šè¨˜ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã§ãƒ¢ãƒ‡ãƒ«ã‚’å¦ç¿’ã™ã‚‹
    model = lgb.train(lgbm_params, lgb_train,
                      # ãƒ¢ãƒ‡ãƒ«ã®è©•ä¾¡ç”¨ãƒ‡ãƒ¼ã‚¿ã‚’æ¸¡ã™
                      valid_sets=lgb_eval,
                      # æœ€å¤§ã§ 1000 ãƒ©ã‚¦ãƒ³ãƒ‰ã¾ã§å¦ç¿’ã™ã‚‹
                      num_boost_round=1000,
                      # 10 ãƒ©ã‚¦ãƒ³ãƒ‰çµŒéŽã—ã¦ã‚‚æ€§èƒ½ãŒå‘ä¸Šã—ãªã„ã¨ãã¯å¦ç¿’ã‚’æ‰“ã¡åˆ‡ã‚‹
                      early_stopping_rounds=10)
    
    return model

ãƒ¢ãƒ‡ãƒ«ã®å¦ç¿’æ™‚é–“ã¯2min 21sã§ã—ãŸã€‚

%%time
model_normal = lgbm_train(X_train2, X_valid, y_train2, y_valid, lgbm_params)

ï¼ˆå‰ç•¥ï¼‰
[62]	valid_0's auc: 0.831404
Early stopping, best iteration is:
[52]	valid_0's auc: 0.831614
CPU times: user 2min 16s, sys: 4.87 s, total: 2min 21s
Wall time: 58.7 s

ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã§äºˆæ¸¬ã—ã¦ã¿ãŸã¨ã“ã‚ã€aucã§0.829287295077ã¨ãªã‚Šã¾ã—ãŸã€‚

y_pred_normal = model_normal.predict(X_test, num_iteration=model_normal.best_iteration)

# auc ã‚’è¨ˆç®—ã™ã‚‹
auc = roc_auc_score(y_test, y_pred_normal)
print(auc)

downsampling

æ¬¡ã„ã§ã€downsamplingã‚’è©¦ã—ã¦ã¿ã¾ã™ã€‚

downsamplingã¯ã€ä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ã®å¤šã„æ–¹ã®ãƒ©ãƒ™ãƒ«ã®ãƒ‡ãƒ¼ã‚¿ã‚’ã€å°‘ãªã„æ–¹ã®ãƒ©ãƒ™ãƒ«ã®ãƒ‡ãƒ¼ã‚¿æ•°ã¨ç‰ã—ããªã‚‹ã¾ã§ãƒ©ãƒ³ãƒ€ãƒ ã«é™¤å¤–ã™ã‚‹æ‰‹æ³•ã§ã™ã€‚ä»Šå›žã®å ´åˆã€è² ä¾‹ï¼ˆãƒ©ãƒ™ãƒ«0ï¼‰ã®ãƒ‡ãƒ¼ã‚¿ã‚’å¤§é‡ã«æ¨ã¦ã¦ã—ã¾ã„ã¾ã™ã€‚

imbalanced-learnã¨ã„ã†ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã€ç°¡å˜ã«å‡¦ç†ã‚’è¨˜è¿°ã§ãã¾ã™ã€‚

imbalanced-learn.org

from imblearn.under_sampling import RandomUnderSampler

sampler = RandomUnderSampler(random_state=42)
# downsampling
X_resampled, y_resampled = sampler.fit_resample(X_train, y_train)
# for validation
X_train2, X_valid, y_train2, y_valid = imbalanced_data_split(X_resampled, y_resampled, test_size=0.2)

f:id:upura:20190112142420p:plain

ï¼ˆå¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®ï¼‰æ£ä¾‹ã®æ•°ã«æƒãˆã¦ã„ã‚‹ã®ã§ã€ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚ºã¯ã‹ãªã‚Šå°ã•ããªã£ã¦ã„ã¾ã™ã€‚

å…ˆã»ã©ã¨åŒã˜ãLightGBMã§å¦ç¿’ã•ã›ãŸã¨ã“ã‚ã€ãƒ¢ãƒ‡ãƒ«ã®å¦ç¿’æ™‚é–“ã¯5.24 sã¾ã§çŸç¸®ã•ã‚Œã¾ã—ãŸã€‚

%%time
model_under_sample = lgbm_train(X_train2, X_valid, y_train2, y_valid, lgbm_params)

ï¼ˆå‰ç•¥ï¼‰
[38]	valid_0's auc: 0.83336
Early stopping, best iteration is:
[28]	valid_0's auc: 0.833389
CPU times: user 5.02 s, sys: 229 ms, total: 5.24 s
Wall time: 2.76 s

ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã§äºˆæ¸¬ã—ã¦ã¿ãŸã¨ã“ã‚ã€aucã¯0.828820480993ã«ãªã‚Šã¾ã—ãŸã€‚aucã¯å¤šå°‘æ‚ªåŒ–ã—ã¦ã„ã¾ã™ã€‚

æ‰‹æ³•	auc	å®Ÿè¡Œæ™‚é–“
LightGBM	0.829287295077	2min 21s
LightGBM + downsampling	0.828820480993	5.24 s

downsampling+bagging

æœ€å¾Œã«ã€baggingã‚’è¿½åŠ ã—ã¦ã¿ã¾ã™ã€‚

baggingã¯ã€æœ€åˆã®ä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰é‡è¤‡ã‚’è¨±ã—ã¦è¤‡æ•°å€‹ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½œæˆã—ã€ãã‚Œãžã‚Œå¦ç¿’ã•ã›ãŸãƒ¢ãƒ‡ãƒ«ã‚’ã‚¢ãƒ³ã‚µãƒ³ãƒ–ãƒ«ã™ã‚‹æ‰‹æ³•ã§ã™ã€‚

imbalanced-learnã®RandomUnderSampler()ã§ã¯ã€replacementã®å¼•æ•°ã‚’Trueã«ã™ã‚‹ã“ã¨ã§ã€é‡è¤‡ã‚’è¨±ã—ãŸãƒ‡ãƒ¼ã‚¿æŠ½å‡ºã‚’å®Ÿè¡Œã—ã¦ãã‚Œã¾ã™ã€‚

ä»Šå›žã¯ä¹±æ•°ã®seedã‚’å¤‰ãˆãªãŒã‚‰ã€10å€‹ã®ãƒ¢ãƒ‡ãƒ«ã‚’å¦ç¿’ã•ã›ã¦ã¿ã¾ã™ã€‚

def bagging(seed):
    sampler = RandomUnderSampler(random_state=seed, replacement=True)
    X_resampled, y_resampled = sampler.fit_resample(X_train, y_train)
    X_train2, X_valid, y_train2, y_valid = imbalanced_data_split(X_resampled, y_resampled, test_size=0.2)
    model_bagging = lgbm_train(X_train2, X_valid, y_train2, y_valid, lgbm_params)
    return model_bagging

10å€‹ã®ãƒ¢ãƒ‡ãƒ«ã®å¦ç¿’æ™‚é–“ã¯ã€1min 24sã§ã—ãŸã€‚

%%time
models = []

for i in range(10):
    models.append(bagging(i))

ï¼ˆå‰ç•¥ï¼‰
CPU times: user 1min 17s, sys: 6.4 s, total: 1min 24s
Wall time: 47.9 s

ä»Šå›žã®ã‚¢ãƒ³ã‚µãƒ³ãƒ–ãƒ«ã§ã¯ã€ãã‚Œãžã‚Œã®ãƒ¢ãƒ‡ãƒ«ã§äºˆæ¸¬ã—ãŸçµæžœã®å¹³å‡å€¤ã‚’ã€å…¨ä½“ã®äºˆæ¸¬å€¤ã¨ã¿ãªã—ã¦ã¿ã¾ã™ã€‚
aucã‚’è¨ˆç®—ã—ãŸã¨ã“ã‚ã€å˜ç‹¬ã®ãƒ¢ãƒ‡ãƒ«ã‚ˆã‚Šã‚‚å°‘ã€…é«˜ã„0.829094611662ã«ãªã‚Šã¾ã—ãŸã€‚

y_preds = []

for m in models:
    y_preds.append(m.predict(X_test, num_iteration=m.best_iteration))

y_preds_bagging = sum(y_preds)/len(y_preds)
# auc ã‚’è¨ˆç®—ã™ã‚‹
auc = roc_auc_score(y_test, y_preds_bagging)
print(auc)

æ‰‹æ³•	auc	å®Ÿè¡Œæ™‚é–“
LightGBM	0.829287295077	2min 21s
LightGBM + downsampling	0.828820480993	5.24 s
LightGBM + downsampling + bagging (10 models)	0.829094611662	1min 24s

ãŠã‚ã‚Šã«

æœ¬è¨˜äº‹ã§ã¯ä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ã®æ‰±ã„æ–¹ã®å‹‰å¼·ã¨ã—ã¦ã€LightGBMã‚’ä½¿ã„ã€ã€Œdownsampling+baggingã€ã®æ‰‹æ³•ã‚’è©¦ã—ã¾ã—ãŸã€‚

å½“ç„¶ãªãŒã‚‰ãƒ‡ãƒ¼ã‚¿ã®ä¸å‡è¡¡åº¦åˆã„ã‚„å¤§ãã•ãªã©ã®ç‰¹æ€§ã«ä¾å˜ã™ã‚‹éƒ¨åˆ†ãŒå¤§ãã„ã¨æ€ã„ã¾ã™ãŒã€ä»Šå›žä½œæˆã—ãŸãƒ‡ãƒ¼ã‚¿ã«é–¢ã—ã¦ã„ãˆã°ã€ä»¥ä¸‹ã®ã‚ˆã†ãªå®Ÿæ„Ÿã‚’æŠ±ãã¾ã—ãŸã€‚

downsamplingã§å¤§é›‘æŠŠã«ãƒ‡ãƒ¼ã‚¿ã‚’æ¨ã¦ã¦ã‚‚ã€ãã“ã¾ã§æ€§èƒ½ã¯æ‚ªåŒ–ã—ãªã„

ä¸–ã®ä¸ã§æ‰±ã†ãƒ‡ãƒ¼ã‚¿ã«ã¯ä¸å‡è¡¡ãƒ‡ãƒ¼ã‚¿ãŒå¤šã„ã®ã§ã€ä»Šå¾Œã„ã‚ã„ã‚ãªãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦è©¦ã—ã¦ã„ããŸã„ã‚¢ãƒ—ãƒãƒ¼ãƒã ã¨æ€ã„ã¾ã—ãŸã€‚

å®Ÿè£…ã¯GitHubã§å…¬é–‹ã—ã¦ã„ã¾ã™ã€‚
github.com

ã¯ã˜ã‚ã«

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ä½œæˆ