UCI Machine Learning Repository ã‚’ãƒžã‚¤ãƒ‹ãƒ³ã‚°ã™ã‚‹(Machine Learning Advent Calendar 12æ—¥ç›®)

Machine Learning Advent Calendar 2013 - Qiita
Machine Learning Advent Calendarã§ã™ï¼Ž
æœ¬æ¥ãªã‚‰ã°ï¼Œä»¥å‰少しでも研究に興味がある人，面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読むべき - 糞ネット弁慶ã§æ˜”è§¦ã‚ŒãŸKeoghå…ˆç”Ÿã®é¢ç™½ãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã£ãŸè«–æ–‡ã«ã¤ã„ã¦è§¦ã‚Œã‚‹äºˆå®šã§ã—ãŸãŒï¼Œã“ã“ã§äºˆå®šã‚’å¤‰æ›´ã—ã¦ï¼Œæ•°å¼ãŒä¸€åˆ‡å‡ºã¦ã“ãªã„æ—¥è¨˜ã‚’æ›¸ã“ã†ã¨æ€ã„ã¾ã™ï¼Žãã¡ã‚‰ã«ã¤ã„ã¦ã¯ã„ã¤ã‹ã¾ã¨ã‚ã¦æ›¸ãã¾ã™ï¼Ž
ä»Šå›žã¯æ©Ÿæ¢°å¦ç¿’ã‚’è¡Œã£ã¦ã„ã‚‹äººãªã‚‰ã°ä¸€åº¦ã¯ã‚¢ã‚¯ã‚»ã‚¹ã—ãŸã“ã¨ãŒã‚ã‚‹ã§ã‚ã‚ã†ï¼Œ UCI Machine Learning Repository ã«ã¤ã„ã¦ï¼Œã©ã®ã‚ˆã†ãªãƒ‡ãƒ¼ã‚¿ãŒåŸ‹ã‚‚ã‚Œã¦ã‚‹ã®ã‹ã‚’ç°¡å˜ã«è¦‹ã¦ã¿ã‚‹äº‹ã«ã—ã¾ã™ï¼Ž

UCI Machine Learning Repository ã¨ã¯?

http://archive.ics.uci.edu/ml/index.html
ãã®åã®é€šã‚Šï¼Œã‚«ãƒªãƒ•ã‚©ãƒ«ãƒ‹ã‚¢å¤§å¦ã‚¢ãƒ¼ãƒã‚¤ãƒ³æ ¡ãŒé‹å–¶ã—ã¦ã„ã‚‹ï¼Œæ©Ÿæ¢°å¦ç¿’ã‚„ãƒ‡ãƒ¼ã‚¿ãƒžã‚¤ãƒ‹ãƒ³ã‚°ã«é–¢ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã®é…å¸ƒã‚µã‚¤ãƒˆã§ã™ï¼Ž
google scholarで検索してみるとï¼Œ UCI Machine Learning Repository ã®ãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã£ã¦æ›¸ã‹ã‚ŒãŸè«–æ–‡(æ£ç¢ºã«ã¯å¼•ç”¨ã—ã¦ã„ã‚‹è«–æ–‡)ã¯ç¾åœ¨5121ä»¶ã‚ã‚‹ã‚ˆã†ã§ã™ï¼Žå®Ÿéš›ã¯ãã®æ•°å€ã®ãƒ¦ãƒ¼ã‚¶ãŒã“ã®ã‚µã‚¤ãƒˆã§é…å¸ƒã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã‚’åˆ©ç”¨ã—ã¦ãªã‚“ã‚‰ã‹ã®åˆ†æžã‚„Rã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’å‹•ã‹ã—ãŸã“ã¨ãŒã‚ã‚‹ã¨æ€ã„ã¾ã™ï¼Ž

ä»£è¡¨çš„ãªãƒ‡ãƒ¼ã‚¿ã¨ã¯?

Iris

UCI Machine Learning Repository: Iris Data Set
Rã®ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã§ãŠé¦´æŸ“ã¿ã®Irisï¼Žã‚¢ãƒ¤ãƒ¡ã«é–¢ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã§ã™ï¼Ž
è©³ç´°ã¯æ˜¨å¹´æ›¸ã‹ã‚ŒãŸã“ã¡ã‚‰ã®ã‚¨ãƒ³ãƒˆãƒªã§å–ã‚Šä¸Šã’ã‚‰ã‚Œã¦ã„ã¾ã™(irisの正体 (R Advent Calendar 2012 6日目) - どんな鳥も)ï¼Ž

Wine Quality

UCI Machine Learning Repository: Wine Quality Data Set
å±±å½¢æµ©ç”Ÿã€Œãã®æ•°å¦ãŒæˆ¦ç•¥ã‚’æ±ºã‚ã‚‹ã€ã‚„ï¼Œæœ€è¿‘ã§ã¯æ©‹æœ¬æ„›ä¸»æ¼”ã®ãƒ‰ãƒ©ãƒž「ハードナッツ! 〜数学girlの恋する事件簿〜」ã§ã‚‚ãƒã‚¿ã«ã•ã‚Œã¦ã„ãŸï¼Œãƒ¯ã‚¤ãƒ³ã®å“è³ªã«é–¢ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆï¼Ž
è©³ç´°ã¯ã“ã¡ã‚‰ã®ã‚¨ãƒ³ãƒˆãƒªã§å–ã‚Šä¸Šã’ã‚‰ã‚Œã¦ã„ã¾ã™(ワインの味（美味しさのグレード）は予測できるか？（１） - verum ipsum factum)ï¼Ž

æŽ˜ã‚Šå‡ºã—ç‰©ã¯ã‚ã‚‹ã‹?

ç¾åœ¨264ã‚‚ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆãŒã‚ã‚‹ UCI Machine Learning Repository ï¼Œä¸€ã¤ãšã¤ãƒ‡ãƒ¼ã‚¿ã‚’è¦‹ã¦ã„ãã«ã¯æ™‚é–“ãŒç„¡ã„ã®ã§ï¼Œ

ãƒ‡ãƒ¼ã‚¿é‡ãŒå¤šã
ã‚ã¾ã‚Šæ³¨ç›®ã•ã‚Œã¦ã„ãªã„

ã¨ã„ã†ï¼Œã“ã®äºŒã¤ã®å±žæ€§ã‚’æº€ãŸã™ã‚ˆã†ãªãƒ‡ãƒ¼ã‚¿ã‚’æŽ¢ã—ã¦ã¿ã‚‹ã“ã¨ã«ã—ã¾ã™ï¼Ž
å¹¸ã„ãªã“ã¨ã«ï¼Œé…å¸ƒã•ã‚Œã¦ã„ã‚‹ãƒ‡ãƒ¼ã‚¿ã«ã¯ãƒ‡ãƒ¼ã‚¿ã®æ¬¡å…ƒæ•°ï¼Œãƒ‡ãƒ¼ã‚¿æ•°ï¼ŒåŠã³ Number of Web Hitsã¨ã„ã†é …ç›®ãŒã‚ã‚‹ã®ã§ï¼Œ

ãƒ‡ãƒ¼ã‚¿ã®æ¬¡å…ƒæ•° * ãƒ‡ãƒ¼ã‚¿æ•°ã‚’ãƒ‡ãƒ¼ã‚¿é‡ã¨ã—ã¦æ¨ªè»¸
Number of Web Hitsã‚’æ³¨ç›®åº¦ã¨ã—ã¦ç¸¦è»¸

ã«ã—ã¦æ•£å¸ƒå›³ã§æã„ã¦ã¿ã‚‹ã“ã¨ã«ã—ã¾ã™ï¼Ž

ãƒ‡ãƒ¼ã‚¿é‡ã«åã‚ŠãŒã‚ã‚‹ã‚ˆã†ãªã®ã§ï¼Œlogã‚’å–ã£ãŸã‚‚ã®ã§ã‚‚ã†ä¸€åº¦ï¼Ž

ãã‚Œã‚‰ã—ããƒ‡ãƒ¼ã‚¿ãŒè¦‹ãˆã¦ããŸã‚ˆã†ãªã®ã§ï¼Œå³ä¸‹ã‚ãŸã‚Šã«ã‚ã‚‹ãƒ‡ãƒ¼ã‚¿ã‚’è¦‹ã¦ã„ãã“ã¨ã«ã—ã¾ã™ï¼Ž

æŽ˜ã‚Šå‡ºã—ç‰©?

URL Reputation

UCI Machine Learning Repository: URL Reputation Data Set
2396130æ¬¡å…ƒï¼Œ3231961å€‹ã§æ§‹æˆã•ã‚Œã‚‹ãƒ‡ãƒ¼ã‚¿ï¼Ž
å†…å®¹ã¯ï¼ŒURLãŒå½ç‰©ã‚’å£²ã‚‹ã‚µã‚¤ãƒˆã‚„ãƒ•ã‚£ãƒƒã‚·ãƒ³ã‚°ï¼Œãƒžãƒ«ã‚¦ã‚§ã‚¢ã®é…å¸ƒã‚µã‚¤ãƒˆã¨ã„ã£ãŸï¼Œæ‚ªæ„ã®ã‚ã‚‹ã‚µã‚¤ãƒˆã‚’ç¤ºã™ã‚‚ã®ã‹ã©ã†ã‹ã‚’åˆ¤å®šã™ã‚‹ãŸã‚ã«ï¼ŒURLã¨ãã‚Œã«å¯¾ã™ã‚‹ç‰¹å¾´é‡(Hostnameï¼ŒTLDï¼ŒWHOIS infoï¼ŒIP prefixãªã©)ã§æ§‹æˆã•ã‚Œã¦ã„ã‚‹ã‚ˆã†ã§ã™ï¼Ž
ã“ã®æ‰‹æ³•ã‚’ä½¿ã£ã¦æ›¸ã‹ã‚ŒãŸå…ƒè«–æ–‡(Identifying Suspicious URLs: An Application of Large-Scale Online Learning(ICML 2009))ã§ã¯ï¼Œã“ã‚Œã‚‰ã‚’CWãªã©ã®ã‚ªãƒ³ãƒ©ã‚¤ãƒ³ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’ä½¿ã£ã¦åˆ¤åˆ¥ã™ã‚‹ã‚¿ã‚¹ã‚¯ã«å–ã‚Šçµ„ã¾ã‚Œã¦ã„ã¾ã™ï¼Ž
å…ƒè«–æ–‡ã®æ„Ÿã˜ï¼Œæ¬¡å…ƒæ•°ãŒå¤šã„ã®ã¯ãã‚Œãžã‚Œã®æ¬¡å…ƒã«ã¤ã„ã¦bag-of-wordsã®ã‚ˆã†ã«ãƒ¦ãƒ‹ãƒ¼ã‚¯ãªå˜èªžã¨ã—ã¦æ‰±ã£ã¦ã„ã‚‹ã‹ã‚‰ã®ã‚ˆã†ã«è¦‹ãˆã¾ã™ï¼Ž

YouTube Multiview Video Games Dataset

UCI Machine Learning Repository: YouTube Multiview Video Games Dataset Data Set
1000000æ¬¡å…ƒï¼Œ120000ä»¶ã§æ§‹æˆã•ã‚Œã‚‹ãƒ‡ãƒ¼ã‚¿ï¼Ž
å…¬é–‹ã•ã‚ŒãŸã®ã¯ä»Šå¹´10æœˆï¼Žå…¬é–‹è€…ã¯ã‚‚ã¡ã‚ã‚“googleï¼Ž
ã€Œè©³ç´°ã¯READMEèªã‚“ã§ãã‚Œã€ã¨ã®ã“ã¨ã§ã™ãŒ2.8Gã®ã‚µã‚¤ã‚ºã®ãƒ‡ãƒ¼ã‚¿ã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã™ã‚‹æ™‚é–“ã‚‚ç„¡ã„ã®ã§ï¼Œã“ã®ãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã£ãŸè«–æ–‡(On Using Nearly-Independent Feature Families for High Precision and Confidence)ã‚’èªã‚€ã“ã¨ã«ã—ã¾ã™ï¼Ž
ã‚¤ãƒ³ãƒˆãƒãƒ¬ãƒ™ãƒ«ã§ã—ã‹èªã‚“ã§ã„ã¾ã›ã‚“ãŒï¼Œå†…å®¹ã¨ã—ã¦ã¯ï¼Œè¤‡æ•°ã®ã‚½ãƒ¼ã‚¹(æ–‡æ›¸ï¼ŒéŸ³å£°ï¼Œæ˜ åƒ)ãªã©ã®ç‰¹å¾´é‡ãŒã‚ã‚‹æ™‚ã«ï¼Œãã‚Œãžã‚Œã®ç‰¹å¾´é‡ã‚’ã¾ã¨ã‚ã¦1ã¤ã®å¦ç¿’å™¨ã«çªã£è¾¼ã‚€ã‚ˆã‚Š(early fusion)ï¼Œç‰¹å¾´é‡ã”ã¨ã«å¦ç¿’å™¨ã‚’æ§‹ç¯‰ã—ã¦ã‚„ã£ã¦æœ€å¾Œã«çµåˆã•ã›ã‚‹(late fusion)ã•ã›ã‚‹æ–¹ãŒè‰¯ã„ï¼Žã—ã‹ã‚‚late fusionã—ã¦å¾—ã‚‰ã‚Œã‚‹çµæžœã®false positiveã®ä¸Šç•Œã¨ãã‚Œãžã‚Œã®å¦ç¿’å™¨ã§ã®ãã‚Œã¨ã®é–¢ä¿‚ãŒç¤ºã›ã‚‹ã®ã§éƒ½åˆãŒè‰¯ã„ï¼Œã¨ã„ã†æ„Ÿã˜ã«è¦‹ãˆã¾ã™ï¼Ž
è‚å¿ƒã®ãƒ‡ãƒ¼ã‚¿ã«ã¤ã„ã¦ã¯Section 3ï¼Žyoutubeã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã•ã‚ŒãŸã‚²ãƒ¼ãƒ å‹•ç”»ã‹ã‚‰ãã®ã‚¿ã‚¤ãƒˆãƒ«ã‚’ç‰¹å®šã™ã‚‹ã‚¿ã‚¹ã‚¯(ã“ã®ã‚¿ã‚¹ã‚¯ã®æ„å‘³ã¨ã¯â€¦?)ã‚’è§£ããŸã‚ã«éŸ³å£°ã¨æ˜ åƒã‚’ä½¿ã£ã¦ã„ã‚‹ã‚ˆã†ã§ã™ï¼Žè«–æ–‡ä¸ã§ã¯1ã‚¿ã‚¤ãƒˆãƒ«3000æœ¬ã®å‹•ç”»ã‚’30ã‚¿ã‚¤ãƒˆãƒ«åˆ† + è¿½åŠ ã§è² ä¾‹ã‚’30000ä»¶é›†ã‚ãŸã¨ã‚ã‚‹ã®ã§ï¼Œå…¬é–‹ã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¨ã‚µã‚¤ã‚ºã¯ä¸€è‡´ã—ã¾ã™ï¼Žæ¬¡å…ƒæ•°ã«ã¤ã„ã¦ã¯è«–æ–‡ä¸ã§ã¯"The end result is roughly 13000 audio features and 3000 visual features"ã¨æ›¸ã‹ã‚Œã¦ã„ã‚‹ã®ã§ã“ã®å¯¾å¿œã«ã¤ã„ã¦ã¯ä¸æ˜Žã§ã™ï¼Ž

Amazon Access Samples

UCI Machine Learning Repository: Amazon Access Samples Data Set
æœ€å¾Œã¯å°‘ã—å¤‰ã‚ã£ãŸãƒ‡ãƒ¼ã‚¿ï¼Ž
20000æ¬¡å…ƒï¼Œ30000ä»¶ã§æ§‹æˆã•ã‚Œã‚‹ã‚¢ãƒžã‚¾ãƒ³å†…ã§ã®ã‚¢ã‚¯ã‚»ã‚¹æ¨©ã®ä»˜ä¸Žãƒ‡ãƒ¼ã‚¿ã§ã™ï¼Ž
èª°ã«å¯¾ã—ã¦ã©ã®æƒ…å ±ã«ã„ã¤ã©ã®ã‚ˆã†ãªã‚¢ã‚¯ã‚»ã‚¹æ¨©é™ãŒä¸Žãˆã‚‰ã‚ŒãŸã®ã‹ï¼Œãã®äººã¯ã©ã‚“ãªå±žæ€§ãªã®ã‹ãŒå¤§é‡ã«ä»˜ä¸Žã•ã‚Œã¦ã„ã¾ã™ï¼Ž
Amazonã¯Amazon.com - Employee Access Challenge | Kaggleã¨ã„ã£ãŸã‚³ãƒ³ãƒšãƒ†ã‚£ã‚·ãƒ§ãƒ³ã‚‚é–‹å‚¬ã—ã¦ã„ã‚‹ã®ã§ã“ã†ã„ã£ãŸç¤¾å†…çš„ãªå–ã‚Šçµ„ã¿ãŒã‚ã‚‹ã‚‚ã®ã¨æ€ã‚ã‚Œã¾ã™ï¼Ž

ã¾ã¨ã‚

ä»Šå›žã¯ UCI Machine Learning Repository ã«ã¤ã„ã¦ï¼Œã¡ã‚‡ã£ã¨å¤‰ã‚ã£ãŸãƒ‡ãƒ¼ã‚¿ã‚’ç´¹ä»‹ã—ã¦ã¿ã¾ã—ãŸï¼Ž
ãƒãƒƒãƒˆã«ã¯ UCI Machine Learning Repository ã ã‘ã§ãªãï¼Œãã®ä»–ã•ã¾ã–ã¾ãªäººãŒã•ã¾ã–ã¾ãªãƒ‡ãƒ¼ã‚¿ã‚’å…¬é–‹ã—ã¦ã„ã¾ã™ï¼Ž
æ‰‹æ³•ã‹ã‚‰ã§ã¯ãªãï¼Œé¢ç™½ãã†ãªãƒ‡ãƒ¼ã‚¿ã‚’è¦‹ã¦ã„ã‚Œã°ãã“ã‹ã‚‰æ–°ã—ã„ãƒã‚¿ãŒæµ®ã‹ã¶ã“ã¨ã‚‚ã‚ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ï¼Ž

ç³žç³žç³žãƒãƒƒãƒˆå¼æ…¶

èªã‚“ã è«–æ–‡ã«ã¤ã„ã¦ãƒ¡ãƒ¢ã‚’æ›¸ãã¾ã™ï¼Žè¶£å‘³ã®è©±ã¯ http://repose.hatenablog.com

UCI Machine Learning Repository ã‚’ãƒžã‚¤ãƒ‹ãƒ³ã‚°ã™ã‚‹(Machine Learning Advent Calendar 12æ—¥ç›®)

UCI Machine Learning Repository ã¨ã¯?

ä»£è¡¨çš„ãªãƒ‡ãƒ¼ã‚¿ã¨ã¯?

Iris

Wine Quality

æŽ˜ã‚Šå‡ºã—ç‰©ã¯ã‚ã‚‹ã‹?

æŽ˜ã‚Šå‡ºã—ç‰©?

URL Reputation

YouTube Multiview Video Games Dataset

Amazon Access Samples

ã¾ã¨ã‚

UCI Machine Learning Repository ã¨ã¯?

ä»£è¡¨çš„ãªãƒ‡ãƒ¼ã‚¿ã¨ã¯?

Iris

Wine Quality

æŽ˜ã‚Šå‡ºã—ç‰©ã¯ã‚ã‚‹ã‹?

æŽ˜ã‚Šå‡ºã—ç‰©?

URL Reputation

YouTube Multiview Video Games Dataset

Amazon Access Samples

ã¾ã¨ã‚

UCI Machine Learning Repository ã¨ã¯?

ä»£è¡¨çš„ãªãƒ‡ãƒ¼ã‚¿ã¨ã¯?

æŽ˜ã‚Šå‡ºã—ç‰©ã¯ã‚ã‚‹ã‹?

æŽ˜ã‚Šå‡ºã—ç‰©?

ã¾ã¨ã‚