Google Colaboratoryã§Optunaã‚’å®Ÿè¡Œã™ã‚‹æ–¹æ³•ï¼ˆStudyã®å†ç¾æ€§ã‚’ç¢ºä¿ã™ã‚‹ï¼‰

ä»Šå›žã¯ã€OSSã®Optunaã‚’ã€Google Colaboratoryã§ä½¿ã†æ‰‹é †ã®è©³ç´°èª¬æ˜Žã¨ã€å®Ÿéš›ã®å®Ÿè¡Œçµæžœã‚’è¨˜è¼‰ã—ã¾ã™ã€‚

ãƒ—ãƒã‚°ãƒ©ãƒ ã¯ã€æ›¸ç±ã€ŒOptunaã«ã‚ˆã‚‹ãƒ–ãƒ©ãƒƒã‚¯ãƒœãƒƒã‚¯ã‚¹æœ€é©åŒ–ã€ã®2ç« ã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’ä½¿ç”¨ã—ã¾ã™ã€‚

ã¾ãŸã€ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ï¼ˆå¦ç¿’ï¼‰ã®å†ç¾æ€§ã‚’ç¢ºä¿ï¼ˆåŒã˜å¦ç¿’çµæžœã‚’å†ç¾ã™ã‚‹ï¼‰ã—ã€Optunaã®ã‚¹ã‚¿ãƒ‡ã‚£ã‚‚å†ç¾ã•ã›ã‚‹æ–¹æ³•ã«ã¤ã„ã¦ã‚‚èª¬æ˜Žã—ã¾ã™ã€‚

ã“ã®å†…å®¹ãŒå‚è€ƒã«ãªã‚Œã°å¹¸ã„ã§ã™ã€‚

ã€Optunaã€‘

å‚è€ƒæ–‡çŒ®

Optunaã«ã‚ˆã‚‹ãƒ–ãƒ©ãƒƒã‚¯ãƒœãƒƒã‚¯ã‚¹æœ€é©åŒ–

ä½œè€…:ä½é‡Žæ£å¤ªéƒŽ,ç§‹è‘‰æ‹“å“‰,ä»Šæ‘ç§€æ˜Ž,å¤ªç”°å¥,æ°´é‡Žå°šäºº,æŸ³ç€¬åˆ©å½¦
ã‚ªãƒ¼ãƒ ç¤¾

Amazon

[ç¬¬3ç‰ˆ]Pythonæ©Ÿæ¢°å¦ç¿’ãƒ—ãƒã‚°ãƒ©ãƒŸãƒ³ã‚° é”äººãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ãƒ†ã‚£ã‚¹ãƒˆã«ã‚ˆã‚‹ç†è«–ã¨å®Ÿè·µ (impress top gear)

ä½œè€…:Sebastian Raschka,Vahid Mirjalili
ã‚¤ãƒ³ãƒ—ãƒ¬ã‚¹

Amazon

å‚è€ƒã‚µã‚¤ãƒˆ

â—†Optunaã®å…¬å¼ã‚µã‚¤ãƒˆ

www.preferred.jp

â—†Optunaã®ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆï¼ˆãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ï¼‰

optuna.readthedocs.io

â—†æ›¸ç±ã€ŒOptunaã«ã‚ˆã‚‹ãƒ–ãƒ©ãƒƒã‚¯ãƒœãƒƒã‚¯ã‚¹æœ€é©åŒ–ã€ã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰

github.com

ã¯ã˜ã‚ã«

Optunaã®è¨˜äº‹ä¸€è¦§ã§ã™ã€‚è‰¯ã‹ã£ãŸã‚‰å‚è€ƒã«ã—ã¦ãã ã•ã„ã€‚

Optunaã®è¨˜äº‹ä¸€è¦§

é–‹ç™ºç’°å¢ƒã®æ§‹ç¯‰ï¼šé–‹ç™ºç’°å¢ƒã®æ§‹ç¯‰æ‰‹é †ï¼ˆç”¨é€”ï¼šAIé–¢é€£ã€Pythonï¼‰
Optunaã®å…¨ä½“åƒï¼šæ›¸ç±ã®è§£èª¬ï¼šOptunaã«ã‚ˆã‚‹ãƒ–ãƒ©ãƒƒã‚¯ãƒœãƒƒã‚¯ã‚¹æœ€é©åŒ–
å˜ç›®çš„æœ€é©åŒ–ï¼šGoogle Colaboratoryã§Optunaã‚’å®Ÿè¡Œï¼ˆStudyå†ç¾æ€§ã®ç¢ºä¿ï¼‰ â† ä»Šå›ž
å¯è¦–åŒ–ï¼šGoogle Colaboratoryã§Optuna Dashboardã‚’ä½¿ã†æ–¹æ³•
Optunaã®ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ï¼šDB4Sã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«æ–¹æ³•ã€ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã®æ“ä½œæ–¹æ³•

ã“ã“ã§ã¯ã€æ›¸ç±ã€ŒOptunaã«ã‚ˆã‚‹ãƒ–ãƒ©ãƒƒã‚¯ãƒœãƒƒã‚¯ã‚¹æœ€é©åŒ–ã€ã®2ç« ã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’ä½¿ã£ã¦ã€å®Ÿéš›ã«ã€ãƒã‚¤ãƒ‘ãƒ¼ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã‚’ã‚„ã£ã¦ã„ãã¾ã™ã€‚

é–‹ç™ºç’°å¢ƒã®æº–å‚™

Optunaã‚’å®Ÿè¡Œã™ã‚‹ç’°å¢ƒã«å¿…è¦ãªå†…å®¹ã‚’èª¬æ˜Žã—ã¾ã™ã€‚

æ‰‹é †

ãƒ»æ›¸ç±ã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã™ã‚‹ã€ã‚‚ã—ãã¯ã€è‡ªåˆ†ã®GitHubã«ãƒ•ã‚©ãƒ¼ã‚¯ã™ã‚‹ï¼ˆãƒ•ã‚©ãƒ¼ã‚¯ã—ãŸãƒªãƒã‚¸ãƒˆãƒªï¼šhttps://github.com/dk0893/optuna-bookï¼‰
ãƒ»ãƒ•ã‚©ãƒ¼ã‚¯ã—ãŸãƒªãƒã‚¸ãƒˆãƒªã‚’Googleãƒ‰ãƒ©ã‚¤ãƒ–ã«ã‚¯ãƒãƒ¼ãƒ³ã™ã‚‹
ãƒ»chapter2ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã«ç§»å‹•ã—ã¦ã€ã“ã®ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã«ã€å®Ÿéš›ã«å®Ÿè¡Œã™ã‚‹ãƒŽãƒ¼ãƒˆãƒ–ãƒƒã‚¯ï¼ˆä¾‹ï¼šch2-exec.ipynbï¼‰ã‚’ä½œæˆã™ã‚‹ï¼ˆå…·ä½“çš„ã«ã¯ã€Googleãƒ‰ãƒ©ã‚¤ãƒ–ã§å³ã‚¯ãƒªãƒƒã‚¯ã—ã¦ã€ãã®ä»–â†’Google Colaboratoryã‚’ã‚¯ãƒªãƒƒã‚¯ã™ã‚‹ï¼‰

Googleãƒ‰ãƒ©ã‚¤ãƒ–ï¼‹Google Colaboratoryï¼‹GitHubã®é–‹ç™ºç’°å¢ƒã«ã¤ã„ã¦ã¯ã€åˆ¥ã®è¨˜äº‹ã§è©³ã—ãæ›¸ã„ã¦ã„ã‚‹ã®ã§ã€å¿…è¦ã«å¿œã˜ã¦å‚è€ƒã«ã—ã¦ãã ã•ã„ã€‚

daisuke20240310.hatenablog.com

Google Colaboratoryã§Optunaã‚’å®Ÿè¡Œã™ã‚‹

list_2_12_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

list_2_12_rf.pyï¼ˆhttps://github.com/dk0893/optuna-book/blob/master/chapter2/list_2_12_rf.pyï¼‰ã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã¯ä»¥ä¸‹ã®é€šã‚Šã§ã€ã¾ãšã¯ã€Optunaã‚’ä½¿ã‚ãšã«å¦ç¿’ã‚’å®Ÿè¡Œã™ã‚‹å®Ÿè£…ã«ãªã£ã¦ã„ã¾ã™ã€‚

import pandas as pd
from sklearn.datasets import fetch_openml
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# ãƒ‡ãƒ¼ã‚¿ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†
data = fetch_openml(name="adult")
X = pd.get_dummies(data["data"])
y = [1 if d == ">50K" else 0 for d in data["target"]]

# æ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–
clf = RandomForestClassifier(
    max_depth=8,  # ãƒã‚¤ãƒ‘ãƒ¼ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿
    min_samples_split=0.5,  # ãƒã‚¤ãƒ‘ãƒ¼ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿
)

# äº¤å·®æ¤œè¨¼ã«ã‚ˆã‚‹è©•ä¾¡
score = cross_val_score(clf, X, y, cv=3)
accuracy = score.mean()
print(f"Accuracy: {accuracy}")

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†

adultã¨ã„ã†OpenMLã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½¿ç”¨ã—ã¦ã„ã¾ã™ã€‚OpenMLã¨ã¯ã€æ©Ÿæ¢°å¦ç¿’ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã€ãã®å®Ÿè¡Œã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã€çµæžœã‚’å…±æœ‰ã™ã‚‹ãƒ—ãƒ©ãƒƒãƒˆãƒ•ã‚©ãƒ¼ãƒ ã§ã™ã€‚ä»¥ä¸‹ã§ã€OpenMLã«ã¤ã„ã¦å°‘ã—èª¿ã¹ã¦ã¿ã¾ã™ã€‚

OpenMLï¼ˆhttps://www.openml.org/ï¼‰ã«ã‚¢ã‚¯ã‚»ã‚¹ã—ã¾ã™ã€‚å·¦ã®ã‚µã‚¤ãƒ‰ãƒãƒ¼ã®Datasetsã‚’ã‚¯ãƒªãƒƒã‚¯ã€Searchã«ã€Œadultã€ã¨å…¥åŠ›ã—ã¦Enterã‚’æŠ¼ã™ã¨adultã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆãŒè¦‹ã¤ã‹ã‚Šã¾ã™ã€‚v1ã‹ã‚‰v4ã¾ã§ã®4ç¨®é¡žãŒã‚ã‚‹ã‚ˆã†ã§ã™ã€‚

list_2_12_rf.pyã§ã¯ã€data = fetch_openml(name="adult")ã§ãƒ‡ãƒ¼ã‚¿ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã‚’è¡Œã£ã¦ã„ã¾ã™ã€‚scikit-learnã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®fetch_openmlï¼ˆhttps://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.htmlï¼‰ã«ã‚ˆã‚‹ã¨ã€ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã¯æŒ‡å®šã—ã¦ãŠã‚‰ãšã€ãã®å ´åˆã¯ä¸€ç•ªå¤ã„ãƒãƒ¼ã‚¸ãƒ§ãƒ³ãŒãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã•ã‚Œã‚‹ã‚‰ã—ã„ã§ã™ã€‚ã¤ã¾ã‚Šã€v1ãŒãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã•ã‚Œã‚‹ã“ã¨ã«ãªã‚Šã¾ã™ã€‚

adultãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®v1ã‚’è¦‹ã¦ã¿ã¾ã™ã€‚Data DetailãŒè¡¨ç¤ºã•ã‚Œã¾ã™ã€‚

OpenML adult v1 データセット — OpenML adult v1 ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ

adultã¯ã€UCIã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã§ã‚ã‚Šã€v2ãŒã‚ªãƒªã‚¸ãƒŠãƒ«ã®ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚‰ã—ãã€v1ã¯ã€Œã„ãã¤ã‹ã®ç‰¹å¾´é‡ãŒé›¢æ•£åŒ–ã•ã‚Œã¦ã„ã‚‹ã€ã¨æ›¸ã‹ã‚Œã¦ã„ã¾ã™ã€‚

ç¶šã„ã¦ã€Analysisã‚’è¦‹ã¦ã¿ã¾ã™ã€‚ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®åˆ†æžãŒç°¡æ˜“çš„ã«ï¼ˆååˆ†ã«ï¼Ÿï¼‰è¡Œãˆã‚‹ã‚ˆã†ã§ã™ã€‚

OpenML adult v1 データセット Analysis — OpenML adult v1 ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ Analysis

adultã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¯ã€48842ã®ã‚µãƒ³ãƒ—ãƒ«æ•°ã‚’æŒã¡ã€15ã®ç‰¹å¾´é‡ã‚’æŒã¡ï¼ˆãŸã ã—ã€ãã®ã†ã¡ã®1ã¤ã¯æ£è§£ãƒ©ãƒ™ãƒ«ãªã®ã§ã€å¦ç¿’ã§ä½¿ç”¨ã™ã‚‹ç‰¹å¾´é‡ã¯14ï¼‰ã€48842Ã—15ã®ãƒ†ãƒ¼ãƒ–ãƒ«ãƒ‡ãƒ¼ã‚¿ã§ã™ã€‚å¦ç¿’ã§ä½¿ç”¨ã™ã‚‹14å€‹ã®ç‰¹å¾´é‡ã®ã†ã¡ã€2å€‹ã¯æ•°å€¤ãƒ‡ãƒ¼ã‚¿ã§ã€12å€‹ã¯æ•°å€¤ä»¥å¤–ã®ãƒ‡ãƒ¼ã‚¿ï¼ˆæ–‡å—åˆ—ï¼‰ã§ã™ã€‚

ã“ã“ã§ã€adultã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã«ã¤ã„ã¦å°‘ã—èª¬æ˜Žã—ã¦ãŠãã¾ã™ã€‚å…¨éƒ¨ã§48842äººåˆ†ã®ã‚µãƒ³ãƒ—ãƒ«ãŒã‚ã‚Šã€1ã‚µãƒ³ãƒ—ãƒ«ã¯ã€ã‚ã‚‹äººã®å¹´é½¢ã€é›‡ç”¨ã‚¯ãƒ©ã‚¹ã€æœ€é«˜å¦æ´ã€äººç¨®ï¼ˆç™½äººã€é»’äººãªã©ï¼‰ã€åŠ´åƒæ™‚é–“ã€å‡ºèº«å›½ãªã©ã®ç‰¹å¾´ã‚’æŒã¡ã€æ£è§£ãƒ©ãƒ™ãƒ«ã¯ã€å¹´é–“50Kãƒ‰ãƒ«ã‚’è¶…ãˆã‚‹åŽå…¥ã‚’æŒã£ã¦ã„ã‚‹ã‹ã©ã†ã‹ã§ã‚ã‚Šã€ã“ã‚Œã‚’äºˆæ¸¬ã™ã‚‹åˆ†é¡žå•é¡Œã§ã™ã€‚

taskã¯ã€adultã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½¿ã£ãŸè©•ä¾¡æ–¹æ³•ï¼ˆåˆ†é¡žã€ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ãªã©ï¼‰ãŒæ›¸ã‹ã‚Œã¦ã„ã¾ã™ã€‚

X = pd.get_dummies(data["data"])ã§ã¯ã€14å€‹ã®ç‰¹å¾´é‡ã®ã†ã¡ã€æ•°å€¤ä»¥å¤–ã®ãƒ‡ãƒ¼ã‚¿ã‚’æ•°å€¤ãƒ‡ãƒ¼ã‚¿ã«å¤‰æ›ï¼ˆOneHotè¡¨ç¾ãªã©ï¼‰ã—ã¦ãŠã‚Šã€çµæžœçš„ã«ã€ç‰¹å¾´é‡ã¯14å€‹ã‹ã‚‰121å€‹ã«å¢—ãˆã¦ã„ã¾ã™ã€‚

y = [1 if d == ">50K" else 0 for d in data["target"]]ã§ã¯ã€æ£è§£ãƒ©ãƒ™ãƒ«ã‚’ã€æ‰‹å‹•ã§ã€0ã¨1ã®ãƒ‡ãƒ¼ã‚¿ã«å¤‰æ›ã—ã¦ãƒªã‚¹ãƒˆã«æ ¼ç´ã—ã¦ã„ã¾ã™ã€‚

æ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–

ã“ã“ã§ã¯ã€scikit-learnã®RandomForestClassifierï¼ˆhttps://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.htmlï¼‰ã‚’ä½¿ç”¨ã—ã¦ã„ã¾ã™ã€‚å¼•æ•°ã®max_depthã¯ã€æ±ºå®šæœ¨ã®æœ€å¤§ã®æ·±ã•ã§ã‚ã‚Šã€8ã‚’æŒ‡å®šã—ã¦ã„ã‚‹ã€‚å¼•æ•°ã®min_samples_splitã¯åˆ†å²ã™ã‚‹ãŸã‚ã«å¿…è¦ãªã‚µãƒ³ãƒ—ãƒ«æ•°ã®æœ€å°å€¤ã§ã‚ã‚Šã€0.5ã‚’æŒ‡å®šã—ã¦ã„ã¾ã™ã€‚

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã¨ã¯ã€æ±ºå®šæœ¨ã‚’è¤‡æ•°ï¼ˆãƒ‡ãƒ•ã‚©ãƒ«ãƒˆ100å€‹ï¼‰å¦ç¿’ã•ã›ã¦ã€ãã®ã‚¢ãƒ³ã‚µãƒ³ãƒ–ãƒ«ï¼ˆå¹³å‡ãªã©ï¼‰ã§äºˆæ¸¬ã™ã‚‹éŽå¦ç¿’ã«å¼·ãã€éžå¸¸ã«å„ªç§€ãªãƒ¢ãƒ‡ãƒ«ã§ã™ã€‚

æ±ºå®šæœ¨ã¨ã¯ã€ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã‚„ã€ã‚¸ãƒ‹ä¸ç´”åº¦ã¨ã„ã£ãŸï¼ˆè¤‡æ•°ã®æ–¹å¼ãŒå˜åœ¨ã—ã€RandomForestClassifierã®ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã¯ã‚¸ãƒ‹ä¸ç´”åº¦ï¼‰ã€å„ã‚¯ãƒ©ã‚¹ã®æ··åœ¨å…·åˆã‚’æŒ‡æ¨™ã¨ã—ã€æœ¨æ§‹é€ ã§åˆ†é¡žã™ã‚‹æ‰‹æ³•ã§ã™ã€‚ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã¨ã‚¸ãƒ‹ä¸ç´”åº¦ã¯ã€è¤‡æ•°ã®ã‚µãƒ³ãƒ—ãƒ«ã®ä¸ã«ã€ã‚¯ãƒ©ã‚¹ã®æ··åœ¨ãŒã‚ã‚Œã°é«˜ã„å€¤ã‚’ç¤ºã—ã€ã‚¯ãƒ©ã‚¹ã®æ··åœ¨ãŒå°‘ãªã„ã¨å°ã•ã„å€¤ã‚’ç¤ºã™æŒ‡æ¨™ã§ã™ã€‚ä¾‹ãˆã°ã€2ã‚¯ãƒ©ã‚¹ã®å ´åˆã§ã€ã‚¯ãƒ©ã‚¹ã®ã‚µãƒ³ãƒ—ãƒ«æ•°ãŒåŒã˜æ•°ãšã¤ã‚ã£ãŸå ´åˆã¯0.5ã€ç‰‡æ–¹ã®ã‚¯ãƒ©ã‚¹ã—ã‹å˜åœ¨ã—ãªã„å ´åˆã¯0ã¨ã„ã†å€¤ã«ãªã‚Šã¾ã™ã€‚ä»¥ä¸‹ã«ã€ã‚¸ãƒ‹ä¸ç´”åº¦ã®å¼ã‚’ç¤ºã—ã¾ã™ã€‚

$\displaystyle I_G(t) = \sum_{i=1}^{c}p(i \mid t)(1 - p(i \mid t)) = 1 - \sum_{i=1}^{c}p(i \mid t)^2$

$t$ ã¯ãƒŽãƒ¼ãƒ‰ã€ $c$ ã¯ã‚¯ãƒ©ã‚¹æ•°ã‚’ç¤ºã—ã¾ã™ã€‚ $\sum_{i=1}^{c}p(i \mid t)$ ã¯ã€å…¨ã‚¯ãƒ©ã‚¹ã®ç¢ºçŽ‡ã®å’Œã§ã‚ã‚‹ãŸã‚ã€1ã«ãªã‚‹ãŸã‚ã€å¼å¤‰å½¢ãŒå¯èƒ½ã§ã™ã€‚

æ±ºå®šæœ¨ã®å…·ä½“çš„ãªæ‰‹é †ã¨ã—ã¦ã¯ã€ã¾ãšã€è¦ªãƒŽãƒ¼ãƒ‰ã«å…¨ã‚µãƒ³ãƒ—ãƒ«ãŒã‚ã‚‹çŠ¶æ…‹ã‚’åˆæœŸçŠ¶æ…‹ã¨ã—ã€å…¨ç‰¹å¾´é‡ã§åˆ†å²ï¼ˆæ•°å€¤ã®å ´åˆã¯å¹³å‡å€¤ã‚’é–¾å€¤ã¨ã™ã‚‹ï¼‰ã•ã›ã¦ã¿ã¦ã€ä¸€ç•ªã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã‚„ã‚¸ãƒ‹ä¸ç´”åº¦ãŒæ¸›å°‘ã—ãŸåˆ†å²ã‚’æŽ¡ç”¨ã—ã¾ã™ï¼ˆã“ã®çŠ¶æ…‹ã§ã€è¦ªãƒŽãƒ¼ãƒ‰ï¼‹åãƒŽãƒ¼ãƒ‰2ã¤ï¼‰ã€‚åŒæ§˜ã«ã€å…¨ã¦ã®åãƒŽãƒ¼ãƒ‰ã«ã¤ã„ã¦ã€åŒæ§˜ã®æ“ä½œã‚’è¡Œã„ã€ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã‚„ã€ã‚¸ãƒ‹ä¸ç´”åº¦ãŒ0ã«ãªã‚‹ï¼ˆä»–ã®ã‚¯ãƒ©ã‚¹ãŒæ··åœ¨ã—ãªã„çŠ¶æ…‹ï¼‰ã¾ã§ç¹°ã‚Šè¿”ã—ã¾ã™ã€‚

äº¤å·®æ¤œè¨¼ã«ã‚ˆã‚‹è©•ä¾¡

ã“ã“ã§ã¯ã€scikit-learnã®cross_val_scoreï¼ˆhttps://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.htmlï¼‰ã‚’ä½¿ã£ã¦äº¤å·®æ¤œè¨¼ã‚’å®Ÿè¡Œã—ã¾ã™ã€‚å¼•æ•°ã®clfã¯ãƒ¢ãƒ‡ãƒ«ã®ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹ã€Xã¯å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã€yã¯æ£è§£ãƒ©ãƒ™ãƒ«ã€cvã¯ã‚¯ãƒã‚¹ãƒãƒªãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ã®åˆ†å‰²æ•°ã§ã™ã€‚

äº¤å·®æ¤œè¨¼ã¯ã€ã‚¯ãƒã‚¹ãƒãƒªãƒ‡ãƒ¼ã‚·ãƒ§ãƒ³ã¨ã‚‚å‘¼ã°ã‚Œã€æŒ‡å®šã—ãŸå¦ç¿’ãƒ‡ãƒ¼ã‚¿ã¨æ£è§£ãƒ©ãƒ™ãƒ«ã‚’ä½¿ã„ã€æ±ŽåŒ–æ€§èƒ½ã‚’é«˜ã‚ã‚‹å¦ç¿’æ‰‹æ³•ã§ã™ã€‚

å…·ä½“çš„ã«ã¯ã€å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã‚’æŒ‡å®šã—ãŸåˆ†å‰²æ•°ã§åˆ†å‰²ï¼ˆãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ0ã€1ã€2ã¨ã™ã‚‹ï¼‰ã—ã€æœ€åˆã¯å…ˆé ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ0ã‚’æ¤œè¨¼ãƒ‡ãƒ¼ã‚¿ã¨ã—ã€ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ1ã¨2ã‚’ä½¿ã£ã¦å¦ç¿’ã‚’è¡Œã„ã€æ¤œè¨¼ãƒ‡ãƒ¼ã‚¿ã§æŽ¨è«–ã—ãŸçµæžœï¼ˆåˆ†é¡žç²¾åº¦ï¼‰ã‚’ä¿æŒã—ã¦ãŠãã¾ã™ã€‚æ¬¡ã«ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ1ã‚’æ¤œè¨¼ãƒ‡ãƒ¼ã‚¿ã¨ã—ã¦ã€åŒæ§˜ã«å¦ç¿’ã¨æŽ¨è«–ã‚’ç¹°ã‚Šè¿”ã—ã¾ã™ã€‚ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ2ã‚‚åŒæ§˜ã«è¡Œã„ã€cross_val_scoreã¯3å›žã®çµæžœã‚’è¿”ã—ã¾ã™ã€‚ãã®å¾Œã€å¹³å‡ã‚’è¨ˆç®—ã—ã¦ã€Accuracyï¼ˆæ£ç”çŽ‡ï¼‰ã‚’è¡¨ç¤ºã—ã¦ã„ã¾ã™ã€‚

å®Ÿè¡Œçµæžœ

å®Ÿéš›ã«Google Colaboratoryã§å®Ÿè¡Œã—ã¦ã¿ã¾ã—ãŸã€‚

list_2_12_rf.pyの実行結果 — list_2_12_rf.pyã®å®Ÿè¡Œçµæžœ

ç´„0.76ã®åˆ†é¡žç²¾åº¦ã§ã€æ›¸ç±ã«æ›¸ã‹ã‚Œã¦ã‚‹ç²¾åº¦ã¨ã€å…¨ãåŒã˜ç²¾åº¦ã«ãªã‚Šã¾ã—ãŸã€‚

list_2_14_optimize_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

list_2_14_optimize_rf.pyï¼ˆhttps://github.com/dk0893/optuna-book/blob/master/chapter2/list_2_14_optimize_rf.pyï¼‰ã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã¯ä»¥ä¸‹ã®é€šã‚Šï¼ˆèª¬æ˜Žã—ã‚„ã™ã„ã‚ˆã†ã«ã€ä¸€éƒ¨ã‚³ãƒ¡ãƒ³ãƒˆã‚’è¿½åŠ ã—ã¦ã„ã¾ã™ï¼‰ã§ã€Optunaã®ãƒ–ãƒ©ãƒƒã‚¯ãƒœãƒƒã‚¯ã‚¹æœ€é©åŒ–ã‚’ä½¿ã£ãŸå®Ÿè£…ã¨ãªã£ã¦ã„ã¾ã™ã€‚

import optuna
import pandas as pd
from sklearn.datasets import fetch_openml
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# ãƒ‡ãƒ¼ã‚¿ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†
data = fetch_openml(name="adult")
X = pd.get_dummies(data["data"])
y = [1 if d == ">50K" else 0 for d in data["target"]]

# objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å®šç¾©
def objective(trial):
    clf = RandomForestClassifier(
        max_depth=trial.suggest_int(
            "max_depth", 2, 32,
        ),
        min_samples_split=trial.suggest_float(
            "min_samples_split", 0, 1,
        ),
    )

    score = cross_val_score(clf, X, y, cv=3)
    accuracy = score.mean()
    return accuracy

# ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º
study = optuna.create_study(direction="maximize")
study.optimize(objective, n_trials=100)

print(f"Best objective value: {study.best_value}")
print(f"Best parameter: {study.best_params}")

ãƒ‡ãƒ¼ã‚¿ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†

list_2_12_rf.pyã¨åŒã˜ã§ã™ã€‚

objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å®šç¾©

objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å†…å®¹ã¨ã—ã¦ã¯ã€list_2_12_rf.pyã®æ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–ã¨ã‚ˆãä¼¼ã¦ã„ã¾ã™ãŒã€RandomForestClassifierã®å¼•æ•°ã®æŒ‡å®šæ–¹æ³•ãŒå¤‰æ›´ã•ã‚Œã¦ã„ã¾ã™ã€‚

ã¾ãšã€å¼•æ•°ã®max_depthã«ã¯ã€trial.suggest_int("max_depth", 2, 32,)ãŒæŒ‡å®šã•ã‚Œã¦ãŠã‚Šã€max_depthã®æŽ¢ç´¢ç¯„å›²ã¨ã—ã¦ã€æ•´æ•°ã®2ã‹ã‚‰32ãŒæŒ‡å®šã•ã‚Œã¦ã„ã¾ã™ã€‚

Optunaã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®suggest_intï¼ˆhttps://optuna.readthedocs.io/en/stable/reference/generated/optuna.trial.Trial.html#optuna.trial.Trial.suggest_intï¼‰ã‚’è¦‹ã¾ã™ã€‚suggest_int(name, low, high, *, step=1, log=False)ã¨ã‚ã‚Šã€2<=max_depth<=32ã®ç¯„å›²ã‚’æŽ¢ç´¢ã™ã‚‹ã‚ˆã†ã«æŒ‡å®šã—ã¦ã„ã¾ã™ã€‚

å¼•æ•°ã®è©³ç´°ã«ã¤ã„ã¦ã¯ã€nameã¯ä»»æ„ã®åå‰ï¼ˆå¼•æ•°åã«ã—ã¦ãŠã„ãŸæ–¹ãŒã„ã„ï¼‰ã‚’æŒ‡å®šã—ã€å¼•æ•°ã®ã¨ã‚‹ç¯„å›²ã‚’lowã¨highã«æŒ‡å®šã—ã¾ã™ã€‚stepã¯ã€1ã®å ´åˆã¯å¼•æ•°ã®ã¨ã‚‹ç¯„å›²ã®å…¨ã¦ã‚’ä½¿ç”¨ã—ã€2ä»¥ä¸Šã‚’æŒ‡å®šã—ãŸå ´åˆã¯ã€low, low+step, low+2*step, ...ã®ã‚ˆã†ã«ä½¿ç”¨ã—ã¾ã™ã€‚logã¯ã€å¼•æ•°ã®ç¯„å›²ãŒå¯¾æ•°é ˜åŸŸã«å¤‰æ›ã•ã‚Œã€ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã•ã‚Œã¦ã€å…ƒã®é ˜åŸŸã«æˆ»ã•ã‚ŒãŸå€¤ãŒä½¿ç”¨ã•ã‚Œã¾ã™ã€‚

min_samples_splitã«ã¯ã€trial.suggest_float("min_samples_split", 0, 1,)ãŒæŒ‡å®šã•ã‚Œã¦ãŠã‚Šã€min_samples_splitã®æŽ¢ç´¢ç¯„å›²ã¨ã—ã¦ã€å°æ•°ã®0ã‹ã‚‰1ãŒæŒ‡å®šã•ã‚Œã¦ã„ã¾ã™ã€‚

Optunaã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®suggest_floatï¼ˆhttps://optuna.readthedocs.io/en/stable/reference/generated/optuna.trial.Trial.html#optuna.trial.Trial.suggest_floatï¼‰ã‚’è¦‹ã‚‹ã¨ã€suggest_float(name, low, high, *, step=None, log=False)ã¨ã‚ã‚Šã€suggest_int()ã¨ã»ã¼åŒã˜ã§ã™ã€‚

objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®æˆ»ã‚Šå€¤ã¯Accuracyï¼ˆåˆ†é¡žç²¾åº¦ï¼‰ã§ã™ã€‚

ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º

create_studyã§ã€æœ€å¤§åŒ–ã‚’ç›®çš„ã¨ã—ãŸã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆãŒä½œã‚‰ã‚Œã€optimizeã§å®Ÿéš›ã«æœ€é©åŒ–ã‚’å®Ÿè¡Œã—ã¦ã„ã¾ã™ã€‚æœ€å¾Œã«ã€æœ€é©åŒ–ã®çµæžœã€ãƒ™ã‚¹ãƒˆã®åˆ†é¡žç²¾åº¦ã¨ã€ãã®ã¨ãã«ä½¿ç”¨ã—ãŸå¼•æ•°ã‚’è¡¨ç¤ºã•ã›ã¦ã„ã¾ã™ã€‚

Optunaã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®create_studyï¼ˆhttps://optuna.readthedocs.io/en/stable/reference/generated/optuna.study.create_study.html#optuna.study.create_studyï¼‰ã‚’è¦‹ã¾ã™ã€‚å¼•æ•°ã®direction="maximize"ã§ã€æœ€å¤§åŒ–ã®æœ€é©åŒ–ã‚’æŒ‡å®šã—ã¦ã„ã¾ã™ã€‚

Optunaã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®optimizeï¼ˆhttps://optuna.readthedocs.io/en/stable/reference/generated/optuna.study.Study.html#optuna.study.Study.optimizeï¼‰ã‚’è¦‹ã¾ã™ã€‚n_trials=100ã§ã€è©¦è¡Œå›žæ•°ï¼ˆãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã®å¦ç¿’ã®å›žæ•°ï¼‰ã‚’æŒ‡å®šã—ã¦ã„ã¾ã™ã€‚

Optunaã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®Studyã‚¯ãƒ©ã‚¹ï¼ˆhttps://optuna.readthedocs.io/en/stable/reference/generated/optuna.study.Study.html#optuna-study-studyï¼‰ã‚’è¦‹ã¾ã™ã€‚Attributesï¼ˆå±žæ€§ï¼‰ã«ã€best_valueã¨ã€best_paramsãŒã‚ã‚Šã€ãã‚Œãžã‚Œã®è©³ç´°ã®èª¬æ˜Žã¸ã®ãƒªãƒ³ã‚¯ãŒã‚ã‚Šã¾ã™ã€‚ã“ã®2ã¤ä»¥å¤–ã«ã‚‚ã€å‚ç…§å¯èƒ½ãªå±žæ€§ãŒä½¿ç”¨ã§ãã‚‹ã“ã¨ãŒåˆ†ã‹ã‚Šã¾ã™ã€‚

ä»¥ä¸‹ã‚’å®Ÿè¡Œã—ã¾ã™ã€‚

å®Ÿè¡Œçµæžœ

å®Ÿéš›ã«Google Colaboratoryã§å®Ÿè¡Œã—ã¦ã¿ã¾ã—ãŸã€‚

[I 2024-03-18 16:48:07,908] A new study created in memory with name: no-name-0ee66a95-2f97-4355-a36b-c7dd40acc8c0
[I 2024-03-18 16:48:10,305] Trial 0 finished with value: 0.7607182349443268 and parameters: {'max_depth': 6, 'min_samples_split': 0.8390462700980509}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-18 16:48:13,301] Trial 1 finished with value: 0.762110464653306 and parameters: {'max_depth': 24, 'min_samples_split': 0.41546091404803887}. Best is trial 1 with value: 0.762110464653306.
[I 2024-03-18 16:48:15,060] Trial 2 finished with value: 0.7607182349443268 and parameters: {'max_depth': 29, 'min_samples_split': 0.969444032753063}. Best is trial 1 with value: 0.762110464653306.
[I 2024-03-18 16:48:16,843] Trial 3 finished with value: 0.7607182349443268 and parameters: {'max_depth': 7, 'min_samples_split': 0.9031391948680733}. Best is trial 1 with value: 0.762110464653306.
[I 2024-03-18 16:48:18,605] Trial 4 finished with value: 0.7607182349443268 and parameters: {'max_depth': 19, 'min_samples_split': 0.7612784794776261}. Best is trial 1 with value: 0.762110464653306.
ãƒ»ãƒ»ãƒ»é€”ä¸å‰²æ„›ãƒ»ãƒ»ãƒ»
[I 2024-03-18 16:59:45,564] Trial 95 finished with value: 0.8463617280781461 and parameters: {'max_depth': 21, 'min_samples_split': 0.02643139290358594}. Best is trial 84 with value: 0.8554113563787417.
[I 2024-03-18 16:59:51,495] Trial 96 finished with value: 0.8298390555991441 and parameters: {'max_depth': 26, 'min_samples_split': 0.10423539092493249}. Best is trial 84 with value: 0.8554113563787417.
[I 2024-03-18 17:00:00,539] Trial 97 finished with value: 0.841591241978196 and parameters: {'max_depth': 22, 'min_samples_split': 0.045115133886761236}. Best is trial 84 with value: 0.8554113563787417.
[I 2024-03-18 17:00:08,465] Trial 98 finished with value: 0.8340567274646876 and parameters: {'max_depth': 17, 'min_samples_split': 0.07261103742480408}. Best is trial 84 with value: 0.8554113563787417.
[I 2024-03-18 17:00:22,431] Trial 99 finished with value: 0.8547561884211966 and parameters: {'max_depth': 19, 'min_samples_split': 0.0011583420552988678}. Best is trial 84 with value: 0.8554113563787417.
Best objective value: 0.8554113563787417
Best parameter: {'max_depth': 23, 'min_samples_split': 0.0017140477373159217}

ç´„12åˆ†ã‹ã‹ã‚Šã€100å›žã®å¦ç¿’ã¨è©•ä¾¡ã§ã€ãƒ–ãƒ©ãƒƒã‚¯ãƒœãƒƒã‚¯ã‚¹æœ€é©åŒ–ã‚’å®Ÿè¡Œã—ã€ç´„0.85ã®åˆ†é¡žç²¾åº¦ã¨ãªã‚Šã¾ã—ãŸã€‚æ›¸ç±ã®çµæžœã‚ˆã‚Šã€å°‘ã—ä½Žã„ã§ã™ãŒã€Optunaã‚’ä½¿ç”¨ã—ã¦ãªã‹ã£ãŸå ´åˆã®ç´„0.76ã®åˆ†é¡žç²¾åº¦ã‹ã‚‰ã€å¤§ããæ”¹å–„ã—ã¾ã—ãŸã€‚

Optunaã®ã‚¹ã‚¿ãƒ‡ã‚£ã‚’å†ç¾ã•ã›ã‚‹

list_2_14_optimize_rf.pyã‚’ã‚‚ã†ä¸€åº¦å®Ÿè¡Œã™ã‚‹ã¨ã€ä»¥ä¸‹ã®ã‚ˆã†ã«ã€ç•°ãªã‚‹çµæžœãŒå¾—ã‚‰ã‚Œã‚‹ã“ã¨ãŒåˆ†ã‹ã‚Šã¾ã™ã€‚

[I 2024-03-19 14:38:36,453] A new study created in memory with name: no-name-ba409f79-d91c-47c6-90ac-36f4c8e3be61
[I 2024-03-19 14:38:39,240] Trial 0 finished with value: 0.7607182349443268 and parameters: {'max_depth': 3, 'min_samples_split': 0.4896570976010266}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:38:51,909] Trial 1 finished with value: 0.8513369845044804 and parameters: {'max_depth': 16, 'min_samples_split': 0.006380320617366264}. Best is trial 1 with value: 0.8513369845044804.
[I 2024-03-19 14:38:53,625] Trial 2 finished with value: 0.7607182349443268 and parameters: {'max_depth': 8, 'min_samples_split': 0.8767220264426059}. Best is trial 1 with value: 0.8513369845044804.
[I 2024-03-19 14:39:05,614] Trial 3 finished with value: 0.8519512061938818 and parameters: {'max_depth': 30, 'min_samples_split': 0.013673573424747842}. Best is trial 3 with value: 0.8519512061938818.
[I 2024-03-19 14:39:11,120] Trial 4 finished with value: 0.827095533646114 and parameters: {'max_depth': 11, 'min_samples_split': 0.16592141865436927}. Best is trial 3 with value: 0.8519512061938818.
ãƒ»ãƒ»ãƒ»ä»¥é™å‰²æ„›ãƒ»ãƒ»ãƒ»

å…¨ãåŒã˜çµæžœã‚’å¾—ã‚‹ãŸã‚ã«ã¯ã€ä¹±æ•°ã‚·ãƒ¼ãƒ‰ã®è¨å®šãŒå¿…è¦ã§ã™ã€‚Optunaã®å…¬å¼ã‚µã‚¤ãƒˆã®FAQã«æ›¸ã‹ã‚Œã¦ã„ã¾ã™ï¼ˆhttps://optuna.readthedocs.io/en/stable/faq.html#how-can-i-obtain-reproducible-optimization-resultsï¼‰ã€‚

å®Ÿéš›ã«ã‚„ã£ã¦ã¿ã¾ã™ã€‚ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã®å¤‰æ›´ç‚¹ã¯ä»¥ä¸‹ã®é€šã‚Šã§ã™ï¼ˆã“ã‚Œä»¥å¤–ã¯å¤‰æ›´ã‚ã‚Šã¾ã›ã‚“ï¼‰ã€‚

å¤‰æ›´å‰

# ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º
study = optuna.create_study(direction="maximize")

å¤‰æ›´å¾Œ

sampler = optuna.samplers.TPESampler(seed=0)
study = optuna.create_study(sampler=sampler, direction="maximize")

ä»Šå›žã¯ä¹±æ•°ã‚·ãƒ¼ãƒ‰ã«0ã‚’è¨å®šã—ã¾ã—ãŸãŒã€ä»»æ„ã®æ•´æ•°ã‚’è¨å®šã§ãã¾ã™ã€‚

å¤‰æ›´ã—ãŸlist_2_14_optimize_rf.pyã‚’å®Ÿè¡Œã—ãŸçµæžœã¯ä»¥ä¸‹ã®é€šã‚Šã§ã™ã€‚

å†åº¦ã€list_2_14_optimize_rf.pyã‚’å®Ÿè¡Œã—ã¾ã™ã€‚

[I 2024-03-19 14:46:10,076] A new study created in memory with name: no-name-4c0f6c2a-fe7c-4fd3-94b8-0c1752aba146
[I 2024-03-19 14:46:12,393] Trial 0 finished with value: 0.7607182349443268 and parameters: {'max_depth': 19, 'min_samples_split': 0.7151893663724195}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:46:15,851] Trial 1 finished with value: 0.7607182349443268 and parameters: {'max_depth': 20, 'min_samples_split': 0.5448831829968969}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:46:17,725] Trial 2 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.6458941130666561}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:46:19,587] Trial 3 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.8917730007820798}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:46:22,920] Trial 4 finished with value: 0.7698905410762791 and parameters: {'max_depth': 31, 'min_samples_split': 0.3834415188257777}. Best is trial 4 with value: 0.7698905410762791.
ãƒ»ãƒ»ãƒ»é€”ä¸å‰²æ„›ãƒ»ãƒ»ãƒ»
[I 2024-03-19 14:57:09,656] Trial 95 finished with value: 0.8485934462026226 and parameters: {'max_depth': 18, 'min_samples_split': 0.021975518972960142}. Best is trial 82 with value: 0.8548585471747439.
[I 2024-03-19 14:57:25,576] Trial 96 finished with value: 0.8543466880116962 and parameters: {'max_depth': 21, 'min_samples_split': 0.00022872922730136322}. Best is trial 82 with value: 0.8548585471747439.
[I 2024-03-19 14:57:35,035] Trial 97 finished with value: 0.8389909634243521 and parameters: {'max_depth': 21, 'min_samples_split': 0.053218221319534575}. Best is trial 82 with value: 0.8548585471747439.
[I 2024-03-19 14:57:52,642] Trial 98 finished with value: 0.8537938637164729 and parameters: {'max_depth': 23, 'min_samples_split': 0.00018727384142899536}. Best is trial 82 with value: 0.8548585471747439.
[I 2024-03-19 14:57:58,945] Trial 99 finished with value: 0.8323778713634988 and parameters: {'max_depth': 24, 'min_samples_split': 0.08890826469424906}. Best is trial 82 with value: 0.8548585471747439.
Best objective value: 0.8548585471747439
Best parameter: {'max_depth': 18, 'min_samples_split': 0.00023055836175293556}

ã‚‚ã†ä¸€åº¦ã€åŒã˜ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œã—ã¾ã™ã€‚

[I 2024-03-19 14:59:04,918] A new study created in memory with name: no-name-ba4c001c-7cee-41a4-a29b-007c2702430c
[I 2024-03-19 14:59:06,863] Trial 0 finished with value: 0.7607182349443268 and parameters: {'max_depth': 19, 'min_samples_split': 0.7151893663724195}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:59:09,684] Trial 1 finished with value: 0.7607182349443268 and parameters: {'max_depth': 20, 'min_samples_split': 0.5448831829968969}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:59:11,386] Trial 2 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.6458941130666561}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:59:14,774] Trial 3 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.8917730007820798}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 14:59:18,428] Trial 4 finished with value: 0.7698087944218402 and parameters: {'max_depth': 31, 'min_samples_split': 0.3834415188257777}. Best is trial 4 with value: 0.7698087944218402.
ãƒ»ãƒ»ãƒ»é€”ä¸å‰²æ„›ãƒ»ãƒ»ãƒ»
[I 2024-03-19 15:11:43,799] Trial 95 finished with value: 0.8462798544058909 and parameters: {'max_depth': 29, 'min_samples_split': 0.027005809926542394}. Best is trial 71 with value: 0.856025578068143.
[I 2024-03-19 15:11:50,199] Trial 96 finished with value: 0.8296547653236431 and parameters: {'max_depth': 27, 'min_samples_split': 0.10525520375075349}. Best is trial 71 with value: 0.856025578068143.
[I 2024-03-19 15:11:53,330] Trial 97 finished with value: 0.7607182349443268 and parameters: {'max_depth': 28, 'min_samples_split': 0.5034699130716497}. Best is trial 71 with value: 0.856025578068143.
[I 2024-03-19 15:12:03,023] Trial 98 finished with value: 0.8413455442477001 and parameters: {'max_depth': 26, 'min_samples_split': 0.044533665120120094}. Best is trial 71 with value: 0.856025578068143.
[I 2024-03-19 15:12:11,240] Trial 99 finished with value: 0.8335653760197707 and parameters: {'max_depth': 24, 'min_samples_split': 0.08929905275628226}. Best is trial 71 with value: 0.856025578068143.
Best objective value: 0.856025578068143
Best parameter: {'max_depth': 28, 'min_samples_split': 0.001017849703871106}

æœ€åˆã®æ–¹ã¯å†ç¾ã§ãã¦ã„ã‚‹ãŒã€é€”ä¸ã‹ã‚‰çµæžœãŒç•°ãªã£ã¦ã„ã¾ã™ã€‚

åŽŸå› ã¯ã€ç›®çš„é–¢æ•°ï¼ˆobjectiveï¼‰ã®ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆãŒä¹±æ•°ã‚’ä½¿ç”¨ã—ã¦ã„ã‚‹ãŸã‚ã€ãã®ä¹±æ•°ã‚·ãƒ¼ãƒ‰ãŒè¨å®šã§ãã¦ã„ãªã„ãŸã‚ã ã¨è€ƒãˆã‚‰ã‚Œã¾ã™ã€‚

å¯¾ç–ã¨ã—ã¦ã¯ã€ä¹±æ•°ã‚·ãƒ¼ãƒ‰è¨å®šã®ãƒ¡ã‚½ãƒƒãƒ‰ã®è¿½åŠ ã¨ã€ç›®çš„é–¢æ•°ã®å…ˆé ã«è¿½åŠ ã—ãŸä¹±æ•°ã‚·ãƒ¼ãƒ‰è¨å®šãƒ¡ã‚½ãƒƒãƒ‰ã®å‘¼ã³å‡ºã—ã‚’è¿½åŠ ã—ã¾ã™ã€‚

è¿½åŠ

import random
def set_random_seed( seed ):
    random.seed( seed )
    np.random.seed( seed )

å¤‰æ›´å‰

# objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å®šç¾©
def objective(trial):
    clf = RandomForestClassifier( # ä»¥é™å‰²æ„›

å¤‰æ›´å¾Œ

# objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å®šç¾©
def objective(trial):
    set_random_seed( 0 )
    clf = RandomForestClassifier( # ä»¥é™å‰²æ„›

å†åº¦ã€list_2_14_optimize_rf.pyã‚’å®Ÿè¡Œã—ã¾ã™ã€‚

[I 2024-03-19 15:23:18,914] A new study created in memory with name: no-name-5194e802-dc00-4b23-bec7-4f2eedade006
[I 2024-03-19 15:23:21,402] Trial 0 finished with value: 0.7607182349443268 and parameters: {'max_depth': 19, 'min_samples_split': 0.7151893663724195}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:23:24,625] Trial 1 finished with value: 0.7607182349443268 and parameters: {'max_depth': 20, 'min_samples_split': 0.5448831829968969}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:23:26,529] Trial 2 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.6458941130666561}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:23:28,338] Trial 3 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.8917730007820798}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:23:31,842] Trial 4 finished with value: 0.7693788064158434 and parameters: {'max_depth': 31, 'min_samples_split': 0.3834415188257777}. Best is trial 4 with value: 0.7693788064158434.
ãƒ»ãƒ»ãƒ»é€”ä¸å‰²æ„›ãƒ»ãƒ»ãƒ»
[I 2024-03-19 15:36:32,049] Trial 95 finished with value: 0.841816464688217 and parameters: {'max_depth': 27, 'min_samples_split': 0.040705958355933866}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:36:40,530] Trial 96 finished with value: 0.8340363065211047 and parameters: {'max_depth': 26, 'min_samples_split': 0.07378979605757345}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:36:47,251] Trial 97 finished with value: 0.8297980829213555 and parameters: {'max_depth': 25, 'min_samples_split': 0.11078448646792491}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:36:57,877] Trial 98 finished with value: 0.8491872117355811 and parameters: {'max_depth': 25, 'min_samples_split': 0.018643125560272363}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:37:02,268] Trial 99 finished with value: 0.7722042573756228 and parameters: {'max_depth': 26, 'min_samples_split': 0.35128774524331274}. Best is trial 59 with value: 0.85592318661694.
Best objective value: 0.85592318661694
Best parameter: {'max_depth': 27, 'min_samples_split': 0.0010546408626361447}

ã‚‚ã†ä¸€åº¦ã€åŒã˜ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œã—ã¾ã™ã€‚

[I 2024-03-19 15:39:07,592] A new study created in memory with name: no-name-bf81351c-ea09-4557-9b2e-8b8a34444c7a
[I 2024-03-19 15:39:09,480] Trial 0 finished with value: 0.7607182349443268 and parameters: {'max_depth': 19, 'min_samples_split': 0.7151893663724195}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:39:12,507] Trial 1 finished with value: 0.7607182349443268 and parameters: {'max_depth': 20, 'min_samples_split': 0.5448831829968969}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:39:14,251] Trial 2 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.6458941130666561}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:39:16,797] Trial 3 finished with value: 0.7607182349443268 and parameters: {'max_depth': 15, 'min_samples_split': 0.8917730007820798}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-19 15:39:20,703] Trial 4 finished with value: 0.7693788064158434 and parameters: {'max_depth': 31, 'min_samples_split': 0.3834415188257777}. Best is trial 4 with value: 0.7693788064158434.
ãƒ»ãƒ»ãƒ»é€”ä¸å‰²æ„›ãƒ»ãƒ»ãƒ»
[I 2024-03-19 15:51:55,304] Trial 95 finished with value: 0.841816464688217 and parameters: {'max_depth': 27, 'min_samples_split': 0.040705958355933866}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:52:03,229] Trial 96 finished with value: 0.8340363065211047 and parameters: {'max_depth': 26, 'min_samples_split': 0.07378979605757345}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:52:09,515] Trial 97 finished with value: 0.8297980829213555 and parameters: {'max_depth': 25, 'min_samples_split': 0.11078448646792491}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:52:20,484] Trial 98 finished with value: 0.8491872117355811 and parameters: {'max_depth': 25, 'min_samples_split': 0.018643125560272363}. Best is trial 59 with value: 0.85592318661694.
[I 2024-03-19 15:52:24,925] Trial 99 finished with value: 0.7722042573756228 and parameters: {'max_depth': 26, 'min_samples_split': 0.35128774524331274}. Best is trial 59 with value: 0.85592318661694.
Best objective value: 0.85592318661694
Best parameter: {'max_depth': 27, 'min_samples_split': 0.0010546408626361447}

åŒã˜ã‚¹ã‚¿ãƒ‡ã‚£ã‚’å†ç¾ã§ãã¾ã—ãŸã€‚

list_2_16_optimize_rf_gb_with_conditional_search_space.py

list_2_16_optimize_rf_gb_with_conditional_search_space.pyï¼ˆhttps://github.com/dk0893/optuna-book/blob/master/chapter2/list_2_16_optimize_rf_gb_with_conditional_search_space.pyï¼‰ã§ã¯ã€è¤‡æ•°ã®ãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ã†æ–¹æ³•ãŒå®Ÿè£…ã•ã‚Œã¦ã„ã¾ã™ã€‚

å…·ä½“çš„ã«ã¯ã€RandomForestClassifierã«åŠ ãˆã¦ã€scikit-learnã®GradientBoostingClassifierã®2ã¤ã®ãƒ¢ãƒ‡ãƒ«ãŒä½¿ç”¨ã•ã‚Œã¦ãŠã‚Šã€ã•ã‚‰ã«ã€ã‚¹ã‚¿ãƒ‡ã‚£ã‚’ä½œæˆã™ã‚‹ã¨ãã«ã€ã‚¹ã‚¿ãƒ‡ã‚£åã¨ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã‚’æŒ‡å®šã™ã‚‹ã“ã¨ã§ã€SQLiteã®ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã‚’ä½œæˆã—ã€ã“ã®ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã«å®Ÿè¡Œçµæžœã‚’ç™»éŒ²ã—ã¦ã„ã¾ã™ã€‚

ä»Šå›žã¯ã€ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã«ã¤ã„ã¦æ·±å €ã—ãŸã„ãŸã‚ã€ãƒ¢ãƒ‡ãƒ«ã®ã¨ã“ã‚ã¯list_2_14_optimize_rf.pyã®ã¾ã¾ã¨ã—ã€ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã‚’ä½¿ç”¨ã™ã‚‹ã¨ã“ã‚ã ã‘ã‚’æŽ¡ç”¨ã—ã¦ã€å®Ÿè¡Œã—ã¦ã¿ã¾ã™ã€‚ä»¥ä¸‹ã«ã€list_2_14_optimize_rf.pyã‹ã‚‰å¤‰æ›´ã—ãŸç®‡æ‰€ã‚’ç¤ºã—ã¾ã™ã€‚

å¤‰æ›´å‰

# ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º
study = optuna.create_study(direction="maximize")
study.optimize(objective, n_trials=100)

print(f"Best objective value: {study.best_value}")
print(f"Best parameter: {study.best_params}")

å¤‰æ›´å¾Œ

# ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º
study = optuna.create_study(
    study_name="ch2-rf-seed",
    storage="sqlite:///optuna.db",
    direction="maximize")
study.optimize(objective, n_trials=100)

print(f"Best objective value: {study.best_value}")
print(f"Best parameter: {study.best_params}")

å¼•æ•°ã®study_name="ch2-rf-seed"ã§ã€ã‚¹ã‚¿ãƒ‡ã‚£åã‚’æŒ‡å®šã—ã¦ã„ã¾ã™ã€‚æŒ‡å®šã—ãªãã¦ã‚‚ã€ãƒ¦ãƒ‹ãƒ¼ã‚¯ãªåå‰ãŒè‡ªå‹•ã§ä»˜ã‘ã‚‰ã‚Œã¾ã™ãŒã€å¾Œã§è¦‹ãŸã¨ãã«åˆ†ã‹ã‚Šã‚„ã™ã„ãŸã‚ã€æŒ‡å®šã—ãŸæ–¹ãŒã„ã„ã§ã—ã‚‡ã†ã€‚

å¼•æ•°ã®storage="sqlite:///optuna.db"ã§ã€SQLiteã®ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«åï¼ˆã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ï¼‰ã‚’æŒ‡å®šã—ã¦ãŠã‚Šã€ã¾ã ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ãŒå˜åœ¨ã—ã¦ã„ãªã„å ´åˆã¯ã€ã‚«ãƒ¬ãƒ³ãƒˆãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã«optuna.dbã¨ã„ã†ãƒ•ã‚¡ã‚¤ãƒ«åã§ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ãŒä½œæˆã•ã‚Œã¾ã™ã€‚

ãã®å ´åˆã€ä¸€ç•ªè‰¯ã‹ã£ãŸãƒã‚¤ãƒ‘ãƒ¼ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã§ã‚‚ã†ä¸€åº¦å¦ç¿’ã‚’ã—ãŸã„å ´åˆã€ãã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’printæ–‡ã§è¡¨ç¤ºã—ã¦ã„ã‚Œã°ã€ãã‚Œã‚’è¦‹ã¦ã€ãã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’è¨å®šã™ã‚Œã°ã€åŒã˜ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã§å¦ç¿’ã™ã‚‹ã“ã¨ãŒå‡ºæ¥ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ã—ã‹ã—ã€æµ®å‹•å°æ•°ç‚¹æ•°ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®å ´åˆã€printæ–‡ã§å…¨ã¦ãŒè¡¨ç¤ºã•ã‚Œã¦ã„ãªã„å ´åˆãŒã‚ã‚‹ã®ã§ã€å…¨ããƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’è¨å®šã™ã‚‹ã“ã¨ãŒå‡ºæ¥ãšã€å¦ç¿’ã‚’å†ç¾ã™ã‚‹ã“ã¨ã¯ã§ããªã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚

ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã¨è¨€ã£ã¦ã‚‚ã€ãã“ã¾ã§å¤§ããªãƒ•ã‚¡ã‚¤ãƒ«ã«ãªã‚‹ã‚ã‘ã§ã¯ãªã„ã®ã§ã€storageå¼•æ•°ã‚’æŒ‡å®šã—ã¦ã€ã„ã¤ã‚‚ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã«ã‚¹ã‚¿ãƒ‡ã‚£ã®çµæžœã‚’ä¿å˜ã™ã‚‹ã‚ˆã†ã«ã—ãŸæ–¹ãŒã„ã„ã§ã—ã‚‡ã†ã€‚

ã¾ãŸã€ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’ä½œæˆã—ã¦ãŠã‘ã°ã€Optuna DashboardãŒä½¿ãˆã¾ã™ã€‚

Optuna Dashboardã§ã¯ã€ãƒ–ãƒ©ã‚¦ã‚¶ä¸Šã§å®Ÿè¡Œã—ãŸã‚¹ã‚¿ãƒ‡ã‚£ã«ã¤ã„ã¦ã€æ§˜ã€…ãªåˆ†æžãŒè¡Œãˆã¾ã™ã€‚ä½¿ã„æ–¹ã«ã¤ã„ã¦ã¯ã€åˆ¥ã®è¨˜äº‹ã‚’æ›¸ã„ãŸã®ã§ã€è‰¯ã‹ã£ãŸã‚‰å‚è€ƒã«ã—ã¦ãã ã•ã„ã€‚

daisuke20240310.hatenablog.com

å®Ÿè¡Œçµæžœ

[I 2024-03-20 06:01:37,398] A new study created in RDB with name: ch2-rf-seed
[I 2024-03-20 06:01:40,190] Trial 0 finished with value: 0.7607182349443268 and parameters: {'max_depth': 18, 'min_samples_split': 0.5638938133595764}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-20 06:01:42,109] Trial 1 finished with value: 0.7607182349443268 and parameters: {'max_depth': 32, 'min_samples_split': 0.788055583212047}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-20 06:01:45,104] Trial 2 finished with value: 0.7607182349443268 and parameters: {'max_depth': 27, 'min_samples_split': 0.6024974755098238}. Best is trial 0 with value: 0.7607182349443268.
[I 2024-03-20 06:01:50,297] Trial 3 finished with value: 0.8142785254725554 and parameters: {'max_depth': 5, 'min_samples_split': 0.14468519929589163}. Best is trial 3 with value: 0.8142785254725554.
[I 2024-03-20 06:01:53,740] Trial 4 finished with value: 0.7720404672726398 and parameters: {'max_depth': 12, 'min_samples_split': 0.3523860798470476}. Best is trial 3 with value: 0.8142785254725554.
ãƒ»ãƒ»ãƒ»é€”ä¸å‰²æ„›ãƒ»ãƒ»ãƒ»
[I 2024-03-20 06:13:55,242] Trial 95 finished with value: 0.8302075581788131 and parameters: {'max_depth': 19, 'min_samples_split': 0.09428362784266728}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:13:59,747] Trial 96 finished with value: 0.7684779570766304 and parameters: {'max_depth': 20, 'min_samples_split': 0.391099669378463}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:14:08,315] Trial 97 finished with value: 0.8446419319968242 and parameters: {'max_depth': 15, 'min_samples_split': 0.03303767220036553}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:14:16,474] Trial 98 finished with value: 0.8342410227705971 and parameters: {'max_depth': 25, 'min_samples_split': 0.0714018376653957}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:14:22,132] Trial 99 finished with value: 0.8282010992348194 and parameters: {'max_depth': 17, 'min_samples_split': 0.12281022399304492}. Best is trial 72 with value: 0.8554523013892831.
Best objective value: 0.8554523013892831
Best parameter: {'max_depth': 23, 'min_samples_split': 0.0009062357253867216}

ã‚¹ã‚¿ãƒ‡ã‚£ã‚’ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã«ä¿å˜ã™ã‚‹æ©Ÿèƒ½ã‚’è¿½åŠ ã—ãŸä»¥å¤–ã¯ã€list_2_14_optimize_rf.pyã‹ã‚‰å¤‰æ›´ã—ã¦ãªã„ã®ã§ã€å…ˆã»ã©ã¨åŒã˜ã‚ˆã†ãªçµæžœã«ãªã‚Šã¾ã—ãŸã€‚

create_studyãƒ¡ã‚½ãƒƒãƒ‰ã®å¼•æ•°ã®load_if_existsã®èª¬æ˜Žã‚’è¿½åŠ

ä»Šå›žã¯å¼•æ•°ã®load_if_existsã‚’æŒ‡å®šã—ã¦ã„ã¾ã›ã‚“ã§ã—ãŸã€‚ã“ã®å¼•æ•°ã¯ã€ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’ä½¿ã†å ´åˆã¯å¿…è¦ã«ãªã‚‹å ´åˆãŒã‚ã‚‹ã®ã§ã€ã“ã“ã§èª¬æ˜Žã—ã¾ã™ã€‚

load_if_exists=Falseã§create_studyã‚’å®Ÿè¡Œã—ãŸå ´åˆã€ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã«æ—¢ã«åŒã˜åå‰ã®ã‚¹ã‚¿ãƒ‡ã‚£ãŒå˜åœ¨ã—ãŸå ´åˆã€ä»¥ä¸‹ã®ã‚ˆã†ã«ã‚¨ãƒ©ãƒ¼ãŒç™ºç”Ÿã—ã€ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã«ä¿å˜ã—ãŸã‚¹ã‚¿ãƒ‡ã‚£ã‚’å£Šã•ãªã„ã‚ˆã†ã«ã—ã¦ãã‚Œã¾ã™ã€‚

DuplicatedStudyError: Another study with name 'ch2-rf-seed' already exists. Please specify a different name, or reuse the existing one by setting `load_if_exists` (for Python API) or `--skip-if-exists` flag (for CLI).

ä¸€æ–¹ã€load_if_exists=Trueã§create_studyã‚’å®Ÿè¡Œã—ã€optimizeã‚’å®Ÿè¡Œã—ãŸå ´åˆã€æŒ‡å®šã—ãŸã‚¹ã‚¿ãƒ‡ã‚£ã®ç¶šãã‹ã‚‰ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã‚’å®Ÿè¡Œã—ã¦ãã‚Œã¾ã™ï¼ˆæœ€åˆã«optimizeã§n_trialsã‚’100ã§å®Ÿè¡Œã—ã¦ã„ãŸå ´åˆã€101å›žç›®ã‹ã‚‰ç¶šãã‚’å®Ÿè¡Œã—ã¦ãã‚Œã¾ã™ï¼‰ã€‚

ä»¥ä¸‹ã‚’å®Ÿè¡Œ

study = optuna.create_study(
    study_name="ch2-rf-seed",
    storage="sqlite:///optuna.db",
    direction="maximize",
    load_if_exists=True)
study.optimize(objective, n_trials=100)

print(f"Best objective value: {study.best_value}")
print(f"Best parameter: {study.best_params}")

å®Ÿè¡Œçµæžœ

[I 2024-03-20 06:22:48,549] Using an existing study with name 'ch2-rf-seed' instead of creating a new one.
[I 2024-03-20 06:22:58,802] Trial 100 finished with value: 0.8464231581699796 and parameters: {'max_depth': 14, 'min_samples_split': 0.021362272594642306}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:23:10,816] Trial 101 finished with value: 0.8517054858265473 and parameters: {'max_depth': 18, 'min_samples_split': 0.009011066100582318}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:23:19,036] Trial 102 finished with value: 0.8403218397552283 and parameters: {'max_depth': 19, 'min_samples_split': 0.04818164005763597}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:23:29,129] Trial 103 finished with value: 0.8475492541136544 and parameters: {'max_depth': 20, 'min_samples_split': 0.02326090335375395}. Best is trial 72 with value: 0.8554523013892831.
[I 2024-03-20 06:23:42,828] Trial 104 finished with value: 0.8543467093909327 and parameters: {'max_depth': 18, 'min_samples_split': 0.0016971833803444691}. Best is trial 72 with value: 0.8554523013892831.
ãƒ»ãƒ»ãƒ»é€”ä¸å‰²æ„›ãƒ»ãƒ»ãƒ»
[I 2024-03-20 06:39:40,899] Trial 195 finished with value: 0.8425330476463699 and parameters: {'max_depth': 28, 'min_samples_split': 0.03683044981939044}. Best is trial 178 with value: 0.8559231929049508.
[I 2024-03-20 06:39:51,507] Trial 196 finished with value: 0.8482044296168122 and parameters: {'max_depth': 27, 'min_samples_split': 0.019320595313816837}. Best is trial 178 with value: 0.8559231929049508.
[I 2024-03-20 06:40:08,113] Trial 197 finished with value: 0.8553703824433508 and parameters: {'max_depth': 25, 'min_samples_split': 0.000783018066616531}. Best is trial 178 with value: 0.8559231929049508.
[I 2024-03-20 06:40:15,712] Trial 198 finished with value: 0.838929610046249 and parameters: {'max_depth': 25, 'min_samples_split': 0.05273723875182029}. Best is trial 178 with value: 0.8559231929049508.
[I 2024-03-20 06:40:25,736] Trial 199 finished with value: 0.8434134320259252 and parameters: {'max_depth': 26, 'min_samples_split': 0.034967023097725466}. Best is trial 178 with value: 0.8559231929049508.
Best objective value: 0.8559231929049508
Best parameter: {'max_depth': 24, 'min_samples_split': 0.0006325520315008212}

è¿½åŠ ã§ã•ã‚‰ã«100å›žãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã‚’å®Ÿè¡Œã—ãŸãŒã€ç²¾åº¦ã®æ”¹å–„ã¯ã‚ãšã‹ã§ã—ãŸã€‚æŽ¢ç´¢ç©ºé–“ãŒ2ã¤ã®å¼•æ•°ã®ã¿ã§ã‚ã‚Šã€ç‰‡æ–¹ãŒé›¢æ•£å€¤ãªã®ã§ã€é¸æŠžè‚¢ãŒå°‘ãªã„ã“ã¨ãŒåŽŸå› ã ã¨æ€ã‚ã‚Œã¾ã™ã€‚

list_2_19_load_study.pyã‚’å®Ÿè¡Œã™ã‚‹

list_2_19_load_study.pyã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã¯ä»¥ä¸‹ã®é€šã‚Šã§ã™ã€‚

èª¬æ˜Žã—ã‚„ã™ã„ã‚ˆã†ã«ã€ä¸€éƒ¨ã‚³ãƒ¡ãƒ³ãƒˆã‚’è¿½åŠ ã—ã¦ã„ã¾ã™ã€‚ã¾ãŸã€å¦ç¿’ã‚’å†ç¾ã™ã‚‹ãŸã‚ã«ãƒ™ã‚¹ãƒˆãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã®ç•ªå·ã®è¡¨ç¤ºã‚‚è¿½åŠ ã—ã¦ã„ã¾ã™ã€‚

å‡¦ç†ã®å†…å®¹ã¯ã€ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã¨ã‚¹ã‚¿ãƒ‡ã‚£åã‚’æŒ‡å®šã—ã¦ã€ã‚¹ã‚¿ãƒ‡ã‚£ã‚’ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã‹ã‚‰ãƒãƒ¼ãƒ‰ã—ã¦ã„ã¾ã™ã€‚

import optuna

# ã‚¹ã‚¿ãƒ‡ã‚£ã®ãƒãƒ¼ãƒ‰
study = optuna.load_study(
    study_name="ch2-rf-seed",
    storage="sqlite:///optuna.db",
)

print(f"Best objective value: {study.best_value}")
print(f"Best parameter: {study.best_params}")
print(f"Best number: {study.best_trial.number}")

ã‚¹ã‚¿ãƒ‡ã‚£ã®ãƒãƒ¼ãƒ‰

Optunaã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®load_studyï¼ˆhttps://optuna.readthedocs.io/en/stable/reference/generated/optuna.study.load_study.htmlï¼‰ã‚’è¦‹ã¾ã™ã€‚create_studyã¨åŒã˜ãã€å¼•æ•°ã«study_name="ch2-rf-seed"ã§ã‚¹ã‚¿ãƒ‡ã‚£åã‚’ã€storage="sqlite:///optuna.db"ã§ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ãƒ‘ã‚¹ã‚’æŒ‡å®šã—ã¦ã„ã¾ã™ã€‚

å®Ÿè¡Œçµæžœ

Best objective value: 0.8559231929049508
Best parameter: {'max_depth': 24, 'min_samples_split': 0.0006325520315008212}
Best number: 178

ã‚¹ã‚¿ãƒ‡ã‚£ã‚’å®Ÿè¡Œã—ãŸçµæžœã¨åŒã˜å†…å®¹ã‚’èªã¿å‡ºã™ã“ã¨ãŒã§ãã¦ã„ã¾ã™ã€‚

ã¾ãšã€ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’ç¤ºã—ã¾ã™ã€‚

# ãƒ™ã‚¹ãƒˆãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã‚’å‚ç…§ã™ã‚‹
tr = study.trials[study.best_trial.number]

# ä¹±æ•°ã‚·ãƒ¼ãƒ‰ã‚’è¨å®š
set_random_seed( 0 )

# æ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–
clf = RandomForestClassifier(
    max_depth=tr.params['max_depth'],
    min_samples_split=tr.params['min_samples_split'],
)

# äº¤å·®æ¤œè¨¼ã«ã‚ˆã‚‹è©•ä¾¡
score = cross_val_score(clf, X, y, cv=3)
accuracy = score.mean()
print(f"Accuracy: {accuracy}")

ã“ã“ã§ã¯ã€ã©ã®ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã‚’å‚ç…§ã™ã‚‹å ´åˆã«ã§ã‚‚ä½¿ãˆã‚‹æ–¹æ³•ã¨ã—ã¦ã€best_trial.numberã§å¯¾è±¡ã®ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã‚’å‚ç…§ã—ã¦ã€ãã®ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã®paramsã‚’ä½¿ã£ã¦ã„ã¾ã™ãŒã€å˜ç´”ã«ãƒ™ã‚¹ãƒˆãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æŒ‡å®šã—ãŸã„ã ã‘ãªã‚‰ã€study.best_paramsã§å‚ç…§ã§ãã¾ã™ã€‚

Optunaã®ãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã®Studyã‚¯ãƒ©ã‚¹ï¼ˆhttps://optuna.readthedocs.io/en/stable/reference/generated/optuna.study.Study.htmlï¼‰ã‚’è¦‹ã¾ã™ã€‚

Attributesã«ã€ã€Œlist_2_19_load_study.pyã‚’å®Ÿè¡Œã™ã‚‹ã€ã§ã‚‚ä½¿ç”¨ã—ãŸã€best_trialãŒã‚ã‚Šã€ãƒ™ã‚¹ãƒˆãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ãŒå‚ç…§ã§ãã¾ã™ã€‚ä»¥ä¸‹ã¯ã€best_trialã‚’å‚ç…§ã—ãŸçµæžœã§ã™ã€‚

FrozenTrial(number=178, state=TrialState.COMPLETE, values=[0.8559231929049508], datetime_start=datetime.datetime(2024, 3, 20, 6, 36, 4, 44871), datetime_complete=datetime.datetime(2024, 3, 20, 6, 36, 20, 969838), params={'max_depth': 24, 'min_samples_split': 0.0006325520315008212}, user_attrs={}, system_attrs={}, intermediate_values={}, distributions={'max_depth': IntDistribution(high=32, log=False, low=2, step=1), 'min_samples_split': FloatDistribution(high=1.0, log=False, low=0.0, step=None)}, trial_id=389, value=None)

ã¾ãŸã€trialsãŒã‚ã‚Šã€ã‚¹ã‚¿ãƒ‡ã‚£ã®å…¨ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã‚’ãƒªã‚¹ãƒˆã§è¿”ã—ã¦ãã‚Œã¾ã™ã€‚best_trialã§å‚ç…§ã—ãŸãƒˆãƒ©ã‚¤ã‚¢ãƒ«ã§ã€numberã§ã€ãƒˆãƒ©ã‚¤ã‚¢ãƒ«ç•ªå·ã‚’å‚ç…§ã™ã‚‹ã“ã¨ã§ã€ãƒ™ã‚¹ãƒˆãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’å‚ç…§ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

å®Ÿè¡Œçµæžœ

Accuracy: 0.8559231929049508

ä»Šå›žã¯ä»¥ä¸Šã§ã™ã€‚ãŠç–²ã‚Œæ§˜ã§ã—ãŸï¼

åœŸæ—¥ã®å‹‰å¼·ãƒŽãƒ¼ãƒˆ

Google Colaboratoryã§Optunaã‚’å®Ÿè¡Œã™ã‚‹æ–¹æ³•ï¼ˆStudyã®å†ç¾æ€§ã‚’ç¢ºä¿ã™ã‚‹ï¼‰

å‚è€ƒæ–‡çŒ®

å‚è€ƒã‚µã‚¤ãƒˆ

ã¯ã˜ã‚ã«

é–‹ç™ºç’°å¢ƒã®æº–å‚™

Google Colaboratoryã§Optunaã‚’å®Ÿè¡Œã™ã‚‹

list_2_12_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†

æ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–

äº¤å·®æ¤œè¨¼ã«ã‚ˆã‚‹è©•ä¾¡

å®Ÿè¡Œçµæžœ

list_2_14_optimize_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

ãƒ‡ãƒ¼ã‚¿ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†

objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å®šç¾©

ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º

å®Ÿè¡Œçµæžœ

Optunaã®ã‚¹ã‚¿ãƒ‡ã‚£ã‚’å†ç¾ã•ã›ã‚‹

list_2_16_optimize_rf_gb_with_conditional_search_space.py

ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º

å®Ÿè¡Œçµæžœ

create_studyãƒ¡ã‚½ãƒƒãƒ‰ã®å¼•æ•°ã®load_if_existsã®èª¬æ˜Žã‚’è¿½åŠ

list_2_19_load_study.pyã‚’å®Ÿè¡Œã™ã‚‹

ã‚¹ã‚¿ãƒ‡ã‚£ã®ãƒãƒ¼ãƒ‰

å®Ÿè¡Œçµæžœ

Optunaã§æŽ¢ç´¢ã—ãŸãƒ™ã‚¹ãƒˆãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ä½¿ã£ã¦ã€å¦ç¿’ã‚’å†ç¾ã™ã‚‹

å‚è€ƒæ–‡çŒ®

å‚è€ƒã‚µã‚¤ãƒˆ

ã¯ã˜ã‚ã«

é–‹ç™ºç’°å¢ƒã®æº–å‚™

Google Colaboratoryã§Optunaã‚’å®Ÿè¡Œã™ã‚‹

list_2_12_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ãƒ€ã‚¦ãƒ³ãƒ­ãƒ¼ãƒ‰ã¨å‰å‡¦ç†

æ©Ÿæ¢°å­¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–

äº¤å·®æ¤œè¨¼ã«ã‚ˆã‚‹è©•ä¾¡

å®Ÿè¡Œçµæžœ

list_2_14_optimize_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

ãƒ‡ãƒ¼ã‚¿ã®ãƒ€ã‚¦ãƒ³ãƒ­ãƒ¼ãƒ‰ã¨å‰å‡¦ç†

objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å®šç¾©

ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º

å®Ÿè¡Œçµæžœ

Optunaã®ã‚¹ã‚¿ãƒ‡ã‚£ã‚’å†ç¾ã•ã›ã‚‹

list_2_16_optimize_rf_gb_with_conditional_search_space.py

ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º

å®Ÿè¡Œçµæžœ

create_studyãƒ¡ã‚½ãƒƒãƒ‰ã®å¼•æ•°ã®load_if_existsã®èª¬æ˜Žã‚’è¿½åŠ

list_2_19_load_study.pyã‚’å®Ÿè¡Œã™ã‚‹

ã‚¹ã‚¿ãƒ‡ã‚£ã®ãƒ­ãƒ¼ãƒ‰

å®Ÿè¡Œçµæžœ

Optunaã§æŽ¢ç´¢ã—ãŸãƒ™ã‚¹ãƒˆãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ä½¿ã£ã¦ã€å­¦ç¿’ã‚’å†ç¾ã™ã‚‹

å‚è€ƒæ–‡çŒ®

å‚è€ƒã‚µã‚¤ãƒˆ

ã¯ã˜ã‚ã«

é–‹ç™ºç’°å¢ƒã®æº–å‚™

Google Colaboratoryã§Optunaã‚’å®Ÿè¡Œã™ã‚‹

list_2_12_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†

æ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–

äº¤å·®æ¤œè¨¼ã«ã‚ˆã‚‹è©•ä¾¡

å®Ÿè¡Œçµæžœ

list_2_14_optimize_rf.pyã‚’å®Ÿè¡Œã™ã‚‹

ãƒ‡ãƒ¼ã‚¿ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¨å‰å‡¦ç†

objectiveãƒ¡ã‚½ãƒƒãƒ‰ã®å®šç¾©

ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º

å®Ÿè¡Œçµæžœ

Optunaã®ã‚¹ã‚¿ãƒ‡ã‚£ã‚’å†ç¾ã•ã›ã‚‹

ã‚¹ã‚¿ãƒ‡ã‚£ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ä½œæˆã¨æœ€é©åŒ–ã®å®Ÿè¡Œã¨çµæžœè¡¨ç¤º

å®Ÿè¡Œçµæžœ

create_studyãƒ¡ã‚½ãƒƒãƒ‰ã®å¼•æ•°ã®load_if_existsã®èª¬æ˜Žã‚’è¿½åŠ

list_2_19_load_study.pyã‚’å®Ÿè¡Œã™ã‚‹

ã‚¹ã‚¿ãƒ‡ã‚£ã®ãƒãƒ¼ãƒ‰

å®Ÿè¡Œçµæžœ

Optunaã§æŽ¢ç´¢ã—ãŸãƒ™ã‚¹ãƒˆãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ä½¿ã£ã¦ã€å¦ç¿’ã‚’å†ç¾ã™ã‚‹