ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã‚’ç”¨ã„ãŸãƒ†ã‚ã‚¹ãƒˆåˆ†é¡ž

ä»Šã¾ã§PRMLã‚’èªã‚“ã§å®Ÿè£…ã‚’ç¶šã‘ã¦ãã¾ã—ãŸãŒã€~~10ç« ã‹ã‚‰ã¯é›£ã—ãã¦æ¯ãŒç«‹ãŸãªããªã£ã¦ããŸã®ã§~~ã“ã“ã‚‰ã§å°‘ã—å…·ä½“çš„ãªå¿œç”¨ã«ç›®ã‚’å‘ã‘ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚æ©Ÿæ¢°å¦ç¿’ã®å¿œç”¨å…ˆã¨ã—ã¦ã¯ç”»åƒã®æ–¹ãŒçµæžœã‚’è¦‹ã¦ã„ã¦é¢ç™½ã„ã‚“ã§ã™ãŒã€å½“é¢ã¯è‡ªç„¶è¨€èªžå‡¦ç†ã‚’å–ã‚Šä¸Šã’ã¾ã™ã€‚ãã‚“ãªã‚ã‘ã§ä¸€ç•ªå§‹ã‚ã®å¿œç”¨ã¯æ©Ÿæ¢°å¦ç¿’ã¨è‡ªç„¶è¨€èªžå‡¦ç†ã®æŽ¥ç‚¹ã¨ã—ã¦éžå¸¸ã«é‡è¦ãªãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žï¼ˆText Classification, Text Categorizationï¼‰ã®æŠ€æ³•ãŸã¡ã‚’è©¦ã—ã¦ã„ããŸã„ã¨æ€ã„ã¾ã™ã€‚ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¯æ–‡æ›¸åˆ†é¡žï¼ˆDocument Classificationï¼‰ã¨ã„ã†å‘¼ã³æ–¹ã‚‚ã‚ã‚Šã¾ã™ã€‚ãƒ†ã‚ã‚¹ãƒˆã¨æ–‡æ›¸ã¯åŒã˜æ„å‘³ã§ã™ã€‚æœ€åˆãªã®ã§è‡ªåˆ†ã®çŸ¥è˜ã®æ•´ç†ã¨å…¥é–€è€…ã¸ã®ç´¹ä»‹ã®ãŸã‚ã«ã¡ã‚‡ã£ã¨ä¸å¯§ã«ã¾ã¨ã‚ã¦ã¿ã¾ã—ãŸã€‚

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¨ã¯

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¨ã¯ã€ä¸Žãˆã‚‰ã‚ŒãŸæ–‡æ›¸ï¼ˆWebãƒšãƒ¼ã‚¸ã¨ã‹ï¼‰ã‚’ã‚ã‚‰ã‹ã˜ã‚ä¸Žãˆã‚‰ã‚ŒãŸã„ãã¤ã‹ã®ã‚«ãƒ†ã‚´ãƒªï¼ˆã‚¯ãƒ©ã‚¹ï¼‰ã«è‡ªå‹•åˆ†é¡žã™ã‚‹ã‚¿ã‚¹ã‚¯ã§ã™ã€‚ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¯å¯¾è±¡ã¨ã™ã‚‹ãƒ†ã‚ã‚¹ãƒˆã«ã‚ˆã£ã¦å¹…åºƒã„å¿œç”¨ãŒå¯èƒ½ã§ã™ã€‚ãŸã¨ãˆã°ã€ã™ã§ã«å®Ÿç”¨åŒ–ã•ã‚Œã¦èº«è¿‘ã§ãŠä¸–è©±ã«ãªã£ã¦ã„ã‚‹æ©Ÿèƒ½ã¨ã—ã¦ã¯ã€

é›»åãƒ¡ãƒ¼ãƒ«ã‚’ã€Œã‚¹ãƒ‘ãƒ ã€ã¨ã€Œãã‚Œä»¥å¤–ã€ã¨ã„ã†ã‚«ãƒ†ã‚´ãƒªã¸è‡ªå‹•åˆ†é¡žã—ã¦ã€Œã‚¹ãƒ‘ãƒ ã€ã‚’ã‚´ãƒŸç®±ã¸æ¨ã¦ã‚‹ï¼ˆã‚¹ãƒ‘ãƒ ãƒ•ã‚£ãƒ«ã‚¿ï¼‰
Webãƒšãƒ¼ã‚¸ã‚’ã€Œæ”¿æ²»ãƒ»çµŒæ¸ˆã€ã€Œç§‘å¦ãƒ»å¦å•ã€ã€Œã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ã‚¿ãƒ»ITã€ã€Œã‚²ãƒ¼ãƒ ãƒ»ã‚¢ãƒ‹ãƒ¡ã€ãªã©ã®ã‚«ãƒ†ã‚´ãƒªã¸è‡ªå‹•åˆ†é¡žï¼ˆã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ï¼‰
ãƒ‹ãƒ¥ãƒ¼ã‚¹è¨˜äº‹ã‚’ã€Œèˆˆå‘³ã‚ã‚Šã€ã€Œèˆˆå‘³ãªã—ã€ã¨ã„ã†ã‚«ãƒ†ã‚´ãƒªã¸è‡ªå‹•åˆ†é¡žã—ã¦ã€Œèˆˆå‘³ã‚ã‚Šã€ã®ãƒ‹ãƒ¥ãƒ¼ã‚¹è¨˜äº‹ã ã‘ãŠã™ã™ã‚ï¼ˆæƒ…å ±æŽ¨è–¦ãƒ»æƒ…å ±ãƒ•ã‚£ãƒ«ã‚¿ãƒªãƒ³ã‚°ï¼‰

ãªã©ãŒã‚ã‚Šã¾ã™ã€‚ãã‚Œãžã‚Œã€é›»åãƒ¡ãƒ¼ãƒ«ã€Webãƒšãƒ¼ã‚¸ã€ãƒ‹ãƒ¥ãƒ¼ã‚¹è¨˜äº‹ãŒãƒ†ã‚ã‚¹ãƒˆã«å½“ãŸã‚Šã¾ã™ã€‚ãŸã¨ãˆã°ã€ç§ã‚‚æ„›ç”¨ã—ã¦ã„ã‚‹はてなブックマークã§ã™ãŒã€äººé–“ãŒWebãƒšãƒ¼ã‚¸ã®å†…å®¹ã‚’èªã‚“ã§ã€ã“ã®ãƒšãƒ¼ã‚¸ã¯ã€Œã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ã‚¿ãƒ»ITã€ã ãªã¨ã‹åˆ†é¡žã—ã¦ã„ã‚‹ã‚ã‘ã§ã¯ãªãã€æ©Ÿæ¢°å¦ç¿’ã®æ‰‹æ³•ã‚’ç”¨ã„ãŸåˆ†é¡žãƒ—ãƒã‚°ãƒ©ãƒ ï¼ˆåˆ†é¡žå™¨ã¨å‘¼ã¶ï¼‰ãŒè‡ªå‹•çš„ã«åˆ†é¡žã—ã¦ã„ã¾ã™ã€‚

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ

å¤§é‡ã®Webãƒšãƒ¼ã‚¸ãŒæ¯Žæ—¥æ¯Žæ—¥å‡ºã¦ãã‚‹ã®ã«ã“ã‚“ãªã®äººæ‰‹ã§ã§ãã‚‹ã¯ãšãªã„ã§ã™ã‚ˆããƒ¼ï¼ˆYahoo!ã¯æ˜”ã“ã‚Œã‚’äººæ‰‹ã§ã‚„ã£ã¦ã¾ã—ãŸãŒä»Šã¯ã©ã†ãªã‚“ã§ã—ã‚‡ã†ãï¼Ÿï¼‰ã€‚

æ•™å¸«ã‚ã‚Šå¦ç¿’

ä»•çµ„ã¿ã¯ã“ã†ã§ã™ã€‚ã¾ãšã€äººé–“ãŒæ•™å¸«ã¨ãªã£ã¦åˆ†é¡žå™¨ã‚’è¨“ç·´ã—ã¾ã™ã€‚ã“ã‚“ãªæ„Ÿã˜ã€‚

Webãƒšãƒ¼ã‚¸1ã¯ã€ŒITã€
Webãƒšãƒ¼ã‚¸2ã¯ã€Œç§‘å¦ã€
Webãƒšãƒ¼ã‚¸3ã¯ã€ŒITã€
Webãƒšãƒ¼ã‚¸4ã¯ã€Œæ”¿æ²»ã€
Webãƒšãƒ¼ã‚¸5ã¯ã€Œã‚²ãƒ¼ãƒ ã€
ãƒ»ãƒ»ãƒ»

ã“ã®ã‚ˆã†ãªï¼ˆãƒ†ã‚ã‚¹ãƒˆ,äººé–“ãŒä¸ŽãˆãŸæ£è§£ã‚«ãƒ†ã‚´ãƒªï¼‰ã‚’çµ„ã¨ã—ãŸãƒ‡ãƒ¼ã‚¿ã‚’è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã¨å‘¼ã³ã¾ã™ã€‚åˆ†é¡žå™¨ã¯ã“ã®è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã‚’ã‚‚ã¨ã«å„ã‚«ãƒ†ã‚´ãƒªã®æ–‡æ›¸ã®ç‰¹å¾´ã‚’è‡ªå‹•å¦ç¿’ã—ã¾ã™ã€‚ãŸã¨ãˆã°ã€

ã€ŒiPhoneã€ã€ŒAppleã€ã€ŒTwitterã€ãªã©ã®å˜èªžãŒå«ã¾ã‚Œã‚‹ãƒ†ã‚ã‚¹ãƒˆã¯ã€ŒITã€ã‚«ãƒ†ã‚´ãƒªã§ã‚ã‚‹ç¢ºçŽ‡ãŒé«˜ã„
ã€Œæ°‘ä¸»å…šã€ã€Œè…ç›´äººã€ãªã©ã®å˜èªžãŒå«ã¾ã‚Œã‚‹ãƒ†ã‚ã‚¹ãƒˆã¯ã€Œæ”¿æ²»ã€ã‚«ãƒ†ã‚´ãƒªã§ã‚ã‚‹ç¢ºçŽ‡ãŒé«˜ã„
ã€Œç ”ç©¶ã€ã€ŒJAXAã€ã€Œéºä¼åã€ãªã©ã®å˜èªžãŒå«ã¾ã‚Œã‚‹ãƒ†ã‚ã‚¹ãƒˆã¯ã€Œç§‘å¦ã€ã‚«ãƒ†ã‚´ãƒªã§ã‚ã‚‹ç¢ºçŽ‡ãŒé«˜ã„

ãªã©ã§ã™ã€‚ã“ã®ã‚ˆã†ã«è¨“ç·´ã—ãŸåˆ†é¡žå™¨ã‚’ç”¨ã„ã¦ã€ã‚«ãƒ†ã‚´ãƒªãŒã‚ã‹ã‚‰ãªã„æ–°ã—ã„æ–‡æ›¸ã€ãŸã¨ãˆã°ã€ã€ŒAppleã€ã€ŒiPhoneã€ãŒå«ã¾ã‚Œã‚‹æ–‡æ›¸ã®ã‚«ãƒ†ã‚´ãƒªã¯ï¼Ÿã¨åˆ†é¡žå™¨ã«èžãã¨ã€ŒITã€ã§ã‚ã‚‹ç¢ºçŽ‡ãŒé«˜ã„ã¨è¿”ã—ã¦ãã‚Œã¾ã™ã€‚ä¸€èˆ¬çš„ã«è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã¯å¤šã‘ã‚Œã°å¤šã„ã»ã©åˆ†é¡žå™¨ã¯æ£ç¢ºãªãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žãŒã§ãã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚ã“ã®ã‚ˆã†ã«ã€äººé–“ãŒæ£è§£ã‚«ãƒ†ã‚´ãƒªã‚’è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã¨ã—ã¦ä¸Žãˆã‚‹æ©Ÿæ¢°å¦ç¿’æ‰‹æ³•ã¯æ•™å¸«ã‚ã‚Šå¦ç¿’ã¨å‘¼ã³ã¾ã™ã€‚

Bag-of-words

ä¸€èˆ¬çš„ã«ãƒ†ã‚ã‚¹ãƒˆã¯å˜èªžã®é›†åˆã¨ã—ã¦ä¸Žãˆã¾ã™ã€‚é›†åˆãªã®ã§ä¸¦ã³é †ã¯ç„¡è¦–ã•ã‚Œã¾ã™ã€‚ã¤ã¾ã‚Šã€å˜èªžãŒæ–‡æ›¸å†…ã«ã©ã“ã«å‡ºã¦ãã‚‹ã‹ã¯è€ƒæ…®ã—ã¾ã›ã‚“ã€‚ã“ã®ã‚ˆã†ãªãƒ†ã‚ã‚¹ãƒˆè¡¨ç¾ã¯bag-of-wordsã¨å‘¼ã°ã‚Œã¾ã™ã€‚å˜èªžã‚’ãƒãƒƒã‚°ã®ä¸ã«ãã¡ã‚ƒãã¡ã‚ƒè©°ã‚è¾¼ã‚€ã‚¤ãƒ¡ãƒ¼ã‚¸ã§ã—ã‚‡ã†ã‹ã€‚ãŸã¨ãˆã°ã€

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¨ã¯ã€ä¸Žãˆã‚‰ã‚ŒãŸãƒ†ã‚ã‚¹ãƒˆã‚’ã‚ã‚‰ã‹ã˜ã‚ä¸Žãˆã‚‰ã‚Œã¦ã„ã‚‹ã‚«ãƒ†ã‚´ãƒªã«ã€Œè‡ªå‹•ã§ã€åˆ†é¡žã™ã‚‹ã‚¿ã‚¹ã‚¯ã§ã™ã€‚

ã¨ã„ã†æ–‡æ›¸ã¯ã€bag-of-wordsã§è¡¨ã™ã¨

ãƒ†ã‚ã‚¹ãƒˆ ãƒ†ã‚ã‚¹ãƒˆ ã‚«ãƒ†ã‚´ãƒª ã‚¿ã‚¹ã‚¯ è‡ªå‹• åˆ†é¡ž åˆ†é¡ž

ã¿ãŸã„ã«å˜èªžã®é›†åˆã§è¡¨ã•ã‚Œã¾ã™ã€‚ã‚¿ã‚¹ã‚¯ã«ã‚‚ã‚ˆã‚Šã¾ã™ãŒã€å½¢æ…‹ç´ è§£æžï¼ˆ2009/4/15ï¼‰ã§åè©žã ã‘æŠ½å‡ºã—ã¦ä½¿ã†ã“ã¨ãŒå¤šã„ã‚“ã˜ã‚ƒãªã„ã‹ã¨æ€ã„ã¾ã™ã€‚è©±ã¯ãã‚Œã¾ã™ãŒã€Visual Wordsã‚’ç”¨ã„ãŸé¡žä¼¼ç”»åƒæ¤œç´¢ï¼ˆ2010/2/27ï¼‰ã§å–ã‚Šä¸Šã’ãŸbag-of-visual wordsã¯bag-of-wordsã®ç”»åƒç‰ˆã§ã™ã€‚bag-of-visual wordsã‚‚bag-of-wordsã¨ä¼¼ã¦ã„ã¦ç”»åƒã«ãŠã‘ã‚‹å˜èªžï¼ˆå±€æ‰€ç‰¹å¾´é‡ã®ã‚»ãƒ³ãƒˆãƒã‚¤ãƒ‰ï¼‰ãŒç”»åƒä¸Šã®ã©ã“ã«ã‚ã‚‹ã‹ã¯è€ƒæ…®ã—ã¾ã›ã‚“ã€‚ã“ã®ã‚ˆã†ãªå˜ç´”åŒ–ã®ãŠã‹ã’ã§å¦ç¿’ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ãŒã‚·ãƒ³ãƒ—ãƒ«ã«ãªã‚Šã¾ã™ã€‚

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã®æŠ€æ³•

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¯éžå¸¸ã«å¤šãã®ç ”ç©¶ãŒã‚ã‚Šã€ãã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚‚å¤§é‡ã«ã‚ã‚Šã¾ã™ã€‚ã¡ã‚‡ã£ã¨æ€ã„ã¤ãã ã‘ã§ã‚‚ã€ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã€æ±ºå®šæœ¨ã€Rocchioåˆ†é¡žæ³•ã€k-æœ€è¿‘å‚æ³•ã€ãƒã‚¸ã‚¹ãƒ†ã‚£ãƒƒã‚¯å›žå¸°ã€ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã€ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ãƒˆãƒ«ãƒžã‚·ãƒ³ã€ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°ãªã©ãªã©ã€‚ãã‚Œãžã‚Œã‚„ã‚Šæ–¹ã¯ã ã„ã¶é•ã£ã¦ã„ã¾ã™ã€‚ã¾ãŸã€ãƒ†ã‚ã‚¹ãƒˆã‚’ãƒ™ã‚¯ãƒˆãƒ«ã¸å¤‰æ›ã™ã‚‹æ‰‹æ³•ï¼ˆTF-IDFã¨ã‹ï¼‰ã‚„æ¬¡å…ƒå‰Šæ¸›ã®æ–¹æ³•ï¼ˆLSIã¨ã‹ï¼‰ã‚‚ãŸãã•ã‚“ææ¡ˆã•ã‚Œã¦ãŠã‚Šã€ãã®çµ„ã¿åˆã‚ã›ã‚’è€ƒãˆã‚‹ã¨çµå±€ã©ã‚Œä½¿ãˆã°ã„ã„ã®ï¼Ÿã£ã¦æ„Ÿã˜ã§ã™ã€‚ä¸€èˆ¬çš„ã«ã¯ã€ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ãƒˆãƒ«ãƒžã‚·ãƒ³ã‚„ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°ãŒä»–ã®æ‰‹æ³•ã¨æ¯”ã¹ã¦é«˜ç²¾åº¦ãªåˆ†é¡žãŒã§ãã‚‹ã¨è¨€ã‚ã‚Œã¦ã„ã¾ã™ã€‚ã“ã‚Œã‹ã‚‰å®Ÿéš›ã«è©¦ã—ã¦ã„ãã¾ã™ã€‚ä»Šå›žå–ã‚Šä¸Šã’ã‚‹ã®ã¯ã€ã‚ˆãä½¿ã‚ã‚Œã¦ã„ã¦å®Ÿè£…ã‚‚ç°¡å˜ã€ã—ã‹ã‚‚é«˜é€Ÿã¨ã„ã†ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã§ã™ã€‚ç²¾åº¦è©•ä¾¡ã®ãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³ã¨ã—ã¦ã‚ˆãä½¿ã‚ã‚Œã¦ã¾ã™ã€‚

ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚º

ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã®ä¸å¿ƒã¨ãªã‚‹å¼ã¯ãƒ™ã‚¤ã‚ºã®å®šç†ã‚’å¿œç”¨ã—ãŸä¸‹ã®å¼ã§è¡¨ã›ã¾ã™ã€‚

$P(cat|doc) = \frac{P(cat) P(doc|cat)}{P(doc)} \propto P(cat) P(doc|cat)$

äº‹å¾Œç¢ºçŽ‡P(cat|doc)ã¯æ–‡æ›¸docãŒä¸Žãˆã‚‰ã‚ŒãŸã¨ãã‚«ãƒ†ã‚´ãƒªcatã§ã‚ã‚‹ç¢ºçŽ‡ã§ã™ã€‚ã‚«ãƒ†ã‚´ãƒªã‚’äºˆæ¸¬ã—ãŸã„æœªçŸ¥ã®æ–‡æ›¸ã¯ã€äº‹å¾Œç¢ºçŽ‡ãŒã‚‚ã£ã¨ã‚‚é«˜ã„ã‚«ãƒ†ã‚´ãƒªã¸åˆ†é¡žã—ã¾ã™ï¼ˆMAPæŽ¨å®šï¼‰ã€‚ã“ã®ç¢ºçŽ‡ã‚’è¨ˆç®—ã™ã‚‹ãŸã‚ã«ã¯ã€å³è¾ºã®äº‹å‰ç¢ºçŽ‡P(cat)ã¨å°¤åº¦P(doc|catï¼‰ãŒå¿…è¦ã«ãªã‚Šã¾ã™ã€‚P(doc)ã¯ã©ã®ã‚«ãƒ†ã‚´ãƒªã«ã‚‚å…±é€šãªã®ã§ç„¡è¦–ã§ãã¾ã™ã€‚äº‹å¾Œç¢ºçŽ‡P(cat|doc)ã¨å°¤åº¦P(doc|cat)ã¯ã‚„ã‚„ã“ã—ã„ã®ã§ã™ãŒé•ã†ã‚‚ã®ã§ã™ã€‚ç§ã¯ã“ã®é•ã„ã‚’ç†è§£ã™ã‚‹ã®ã«ã ã„ã¶è‹¦åŠ´ã—ãŸè¦šãˆãŒã‚ã‚Šã¾ã™ãŒãƒ»ãƒ»ãƒ»

ã¾ãšã€P(cat)ã§ã™ãŒã“ã‚Œã¯ç°¡å˜ã§ã™ã€‚è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®å„ã‚«ãƒ†ã‚´ãƒªã®æ–‡æ›¸æ•°ã®ç·æ–‡æ›¸æ•°ã«å ã‚ã‚‹å‰²åˆã‚’è¨ˆç®—ã™ã‚‹ã ã‘ã§ã™ã€‚ãŸã¨ãˆã°ã€

è¨“ç·´ãƒ‡ãƒ¼ã‚¿100æ–‡æ›¸ä¸
IT      50æ–‡æ›¸  â†’  P(cat=IT)   = 50 / 100 = 0.5
ç§‘å¦    30æ–‡æ›¸  â†’  P(cat=ç§‘å¦ï¼‰= 30 / 100 = 0.3
æ”¿æ²»    20æ–‡æ›¸  â†’  P(cat=æ”¿æ²») = 20 / 100 = 0.2

ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚P(doc|cat)ã¯ã¡ã‚‡ã£ã¨è¤‡é›‘ã§ã™ã€‚ã‚«ãƒ†ã‚´ãƒªcatãŒä¸Žãˆã‚‰ã‚ŒãŸã¨ãã«æ–‡æ›¸docãŒç”Ÿæˆã•ã‚Œã‚‹ç¢ºçŽ‡ã§ã™ã€‚ã“ã“ã§ã€æ–‡æ›¸docã¯bag-of-wordsã§å˜èªžã®é›†åˆ [word_1,word_2,...,word_k] ã¨ã—ã¦è¡¨ã•ã‚Œã€å˜èªžé–“ã®ç‹¬ç«‹æ€§ã‚’ä»®å®šã™ã‚‹ã¨ã™ã‚‹ã¨ä¸‹ã®ã‚ˆã†ã«è¨ˆç®—ã§ãã¾ã™ã€‚

$P(doc|cat) = P(word_{1} \wedge \; \cdots \; \wedge word_{k} | cat) = \displaystyle \prod_i P(word_i | cat)$

ä¸Šã®å¼ã§ç¬¬2å¼ã‹ã‚‰ç¬¬3å¼ã¸ã¯å˜èªžã®å‡ºç¾ç¢ºçŽ‡ã®é–“ã«ç‹¬ç«‹æ€§ã‚’ä»®å®šã—ãªã„ã¨æˆã‚Šç«‹ã¡ã¾ã›ã‚“ã€‚åŒæ™‚ç¢ºçŽ‡ã‚’ãã‚Œãžã‚Œã®ç¢ºçŽ‡ã®ç©ã§è¡¨ã›ã‚‹ã£ã¦ã®ãŒç¢ºçŽ‡è«–çš„ç‹¬ç«‹æ€§ã®å®šç¾©ã§ã™ã€‚æœ¬æ¥ã€å˜èªžã®å‡ºç¾ã«ç‹¬ç«‹æ€§ã¯æˆã‚Šç«‹ã¡ã¾ã›ã‚“ã€‚ãŸã¨ãˆã°ã€ã€Œäººå·¥ã€ã¨ã€ŒçŸ¥èƒ½ã€ã¯å…±èµ·ã—ã‚„ã™ã„ã—ã€ã€Œæ©Ÿæ¢°ã€ã¨ã€Œå¦ç¿’ã€ã¯å…±èµ·ã—ã‚„ã™ã„ã§ã™ã€‚ã“ã‚Œã‚’ç„¡è¦–ã—ã¦å˜èªžã®å‡ºç¾ã¯ç‹¬ç«‹ã¨ç„¡ç†çŸ¢ç†ä»®å®šã—ã¦æ–‡æ›¸ã®ç¢ºçŽ‡ã‚’å˜èªžã®ç¢ºçŽ‡ã®ç©ã§è¡¨ã—ã¦å˜ç´”åŒ–ã™ã‚‹ã®ãŒãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã®ãƒŠã‚¤ãƒ¼ãƒ–ãŸã‚‹æ‰€ä»¥ã§ã™ã€‚å˜èªžé–“ã®ä¾å˜é–¢ä¿‚ã‚’ä»®å®šã—ãŸãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã¨ã—ã¦TANï¼ˆTree-Augmented Naive Bayesï¼‰ã¨ã„ã†ã®ã‚‚ææ¡ˆã•ã‚Œã¦ã„ã¾ã™ãŒã€ã‚ã¾ã‚Šåºƒã¾ã£ã¦ãªã„ã¨ã“ã‚ã‚’è¦‹ã‚‹ã¨åŠ´å¤šãã—ã¦åŠŸå°‘ãªã—ã£ã¦æ„Ÿã˜ã§ã—ã‚‡ã†ã‹ï¼Ÿ

ã§ã€ä»Šåº¦ã¯P(word_i|cat)ã®ç¢ºçŽ‡ãŒå¿…è¦ã§ã™ã€‚ã“ã‚Œã¯ã€å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡ã¨å‘¼ã³ã¾ã™ã€‚ã‚«ãƒ†ã‚´ãƒªã®ä¸ã§ãã®å˜èªžãŒã©ã‚Œãã‚‰ã„ã§ã¦ãã‚„ã™ã„ã‹ã‚’è¡¨ã—ã¾ã™ã€‚ã“ã‚Œã¯ç°¡å˜ã§ã€è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®ã‚«ãƒ†ã‚´ãƒªcatã«å˜èªžword_kãŒå‡ºã¦ããŸå›žæ•°ã‚’ã‚«ãƒ†ã‚´ãƒªcatã®å…¨å˜èªžæ•°ã§å‰²ã‚Œã°OKã§ã™ã€‚T(cat,word)ã‚’ã‚«ãƒ†ã‚´ãƒªcatã«å˜èªžwordãŒå‡ºã¦ããŸå›žæ•°ã€Vã‚’è¨“ç·´ãƒ‡ãƒ¼ã‚¿ä¸ã®å…¨å˜èªžé›†åˆï¼ˆãƒœã‚ãƒ£ãƒ–ãƒ©ãƒªï¼‰ã¨ã™ã‚‹ã¨ã€

$\displaystyle P(word_i | cat) = \frac{T(cat, word_i)}{\sum_{word' \in V} T(cat, word')}$

ã¨ãªã‚Šã¾ã™ã€‚åˆ†æ¯ã¯Vã®ã™ã¹ã¦ã®å˜èªžã«é–¢ã—ã¦è¶³ã—åˆã‚ã›ã¾ã™ãŒã€å®Ÿéš›ã¯å¯¾è±¡ã‚«ãƒ†ã‚´ãƒªcatã«å‡ºã¦ãã‚‹å˜èªžã«çµžã£ã¦ã‚‚çµæžœã¯åŒã˜ã§ã™ã€‚ãã®ã‚«ãƒ†ã‚´ãƒªã«å‡ºã¦ã“ãªã‹ã£ãŸå˜èªžã¯T(cat,word)=0ã¨ãªã‚‹ã‹ã‚‰ã§ã™ã€‚

å¯¾æ•°

ä»¥ä¸Šã®çµæžœã‚’ã¾ã¨ã‚ã‚‹ã¨æœ€çµ‚çš„ã«åˆ†é¡žã•ã‚Œã‚‹ã‚«ãƒ†ã‚´ãƒªcat_mapã¯

$cat_{map} = \arg \max_{cat} P(cat|doc) = \arg \max_{cat} P(cat) \displaystyle \prod_i P(word_i | cat)$

ã¨ãªã‚Šã¾ã™ã€‚argmaxf(x)ã£ã¦ã®ã¯f(x)ãŒæœ€å¤§ã«ãªã‚‹ã‚ˆã†ãªxã‚’è¿”ã™ã£ã¦ã„ã†æ„å‘³ã§ã™ã€‚P(word|cat)ã¨ã„ã†ã®ã¯éžå¸¸ã«å°ã•ã„æ•°ãªä¸Šã«æ–‡æ›¸ä¸ã«ã¯ãŸãã•ã‚“ã®å˜èªžãŒå«ã¾ã‚Œã‚‹ã®ã§ã‹ã‘ç®—éƒ¨åˆ†ãŒã‚¢ãƒ³ãƒ€ãƒ¼ãƒ•ãƒãƒ¼ã‚’èµ·ã“ã™å¯èƒ½æ€§ãŒã‚ã‚Šã¾ã™ã€‚ãã“ã§ã€å¯¾æ•°ã‚’ã¨ã£ã¦ã‹ã‘ç®—ã‚’è¶³ã—ç®—åŒ–ã—ã¾ã™ã€‚äº‹å¾Œç¢ºçŽ‡ã®å¤§å°é–¢ä¿‚ã¯å¯¾æ•°ã‚’ã¨ã£ã¦ã‚‚å¤‰åŒ–ã—ãªã„ï¼ˆçµæžœã¨ãªã‚‹cat_mapã¯å¤‰åŒ–ã—ãªã„ï¼‰ã®ã§å•é¡Œã‚ã‚Šã¾ã›ã‚“ã€‚

$cat_{map} = \arg \max_{cat} \log P(cat|doc) = \arg \max_{cat} \Bigl( \log P(cat) + \displaystyle \sum_i \log P(word_i | cat) \Bigr)$

ã‚¼ãƒé »åº¦å•é¡Œ

P(doc|cat)ã¯å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡P(word|cat)ã®ç©ã§æ±‚ã¾ã£ãŸã®ã§ã™ãŒã€ã‚¢ãƒ³ãƒ€ãƒ¼ãƒ•ãƒãƒ¼ä»¥å¤–ã«ã‚‚ã†1ã¤å¤§ããªå•é¡ŒãŒã‚ã‚Šã¾ã™ã€‚ãã‚Œã¯ã€æœªçŸ¥ã®æ–‡æ›¸ã®ã‚«ãƒ†ã‚´ãƒªã‚’äºˆæ¸¬ã™ã‚‹éš›ã€è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã®ãƒœã‚ãƒ£ãƒ–ãƒ©ãƒªã«å«ã¾ã‚Œãªã„å˜èªžã‚’1ã¤ã§ã‚‚å«ã‚“ã§ã„ã‚‹ã¨å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡P(word|cat)ã¯0ã¨ãªã‚Šã€å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡ã®ç©ã§è¡¨ã•ã‚Œã‚‹P(doc|cat)ã‚‚0ã¨ãªã£ã¦ã—ã¾ã†ã“ã¨ã§ã™ï¼ˆå¯¾æ•°ã®ã¨ãã¯log 0ã¨ãªã‚Šè¨ˆç®—ã§ããªããªã‚Šã¾ã™ï¼‰ã€‚ã¤ã¾ã‚Šã€ãã®æ–°ã—ã„æ–‡æ›¸ãŒç”Ÿæˆã•ã‚Œã‚‹ç¢ºçŽ‡ã¯0ã«ãªã£ã¦ã—ã¾ã„ã¾ã™ã€‚

ãŸã¨ãˆã°ã€æ–‡æ›¸ã«iPhoneã€Appleãªã©ã®å˜èªžãŒå«ã¾ã‚Œã¦ãŠã‚Šã€ã€ŒãŠã£ã€ã“ã‚Œã¯ã‚«ãƒ†ã‚´ãƒªITã‹ã‚‰ç”Ÿæˆã•ã‚ŒãŸå¯èƒ½æ€§ãŒé«˜ããªã£ã¦ããŸã€ã¨æ€ã£ã¦ã„ã¦ã‚‚ã€è¨“ç·´æ™‚ã«ã¯å«ã¾ã‚Œãªã‹ã£ãŸæ–°å˜èªžiPadãŒå«ã¾ã‚Œã¦ã—ã¾ã†ã¨P(doc|cat) = 0ã¨ãªã‚Šã€ã“ã®æ–‡æ›¸ãŒã‚«ãƒ†ã‚´ãƒªITã‹ã‚‰ç”Ÿæˆã•ã‚ŒãŸç¢ºçŽ‡ã¯0ã«ãªã£ã¦ã—ã¾ã„ã¾ã™ã€‚iPhoneã¨AppleãŒå‡ºã¦ã‚‹ã®ã ã‹ã‚‰ã‚«ãƒ†ã‚´ãƒªã¯ITã®å¯èƒ½æ€§ãŒé«˜ã„ã ã‚ï¼ã“ã‚Œã¯ãŠã‹ã—ã„ï¼ã£ã¦ã“ã¨ã«ãªã‚Šã¾ã™ã€‚ã“ã®å•é¡Œã¯ã€ã‚¼ãƒé »åº¦å•é¡Œã¨å‘¼ã°ã‚Œã¦ã„ã¾ã™ã€‚ã‚¼ãƒé »åº¦å•é¡Œã¯ã€ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ã¨ã„ã†æ–¹æ³•ã§ç·©å’Œã§ãã¾ã™ã€‚ã‚ˆãä½¿ã‚ã‚Œã‚‹ã®ãŒå˜èªžã®å‡ºç¾å›žæ•°ã«1ã‚’åŠ ãˆã‚‹ãƒ©ãƒ—ãƒ©ã‚¹ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ï¼ˆLaplace Smoothingï¼‰ã§ã™ã€‚æ–°ã—ã„å˜èªžãŒå‡ºã¦ãã‚‹ã¨ç¢ºçŽ‡ã¯ä½Žããªã‚Šã¾ã™ãŒã€0ã«ã¯ãªã‚Šã¾ã›ã‚“ã€‚

$\displaystyle P(word_i|cat) = \frac{T(cat, word_i) + 1}{\sum_{word' \in V} (T(cat, word') + 1)} = \frac{T(cat, word_i) + 1}{(\sum_{word' \in V} T(cat, word')) + |V|}$

Pythonã§å®Ÿè£…

ä¸Šã®ã‚’ç´ ç›´ã«Pythonã§å®Ÿè£…ã™ã‚‹ã¨ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚å¯¾æ•°ã‚’ã¨ã‚Šã€ãƒ©ãƒ—ãƒ©ã‚¹ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡P(word|cat)ã®åˆ†æ¯ã¯ã€å¼•æ•°ã®å˜èªžã«ã‚ˆã‚‰ãªã„ãŸã‚è¨“ç·´æ™‚ã«äº‹å‰ã«ä¸€æ‹¬è¨ˆç®—ã—ã¦ã„ã¾ã™ã€‚ã“ã‚Œã‚’å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡ã‚’æ±‚ã‚ã‚‹ãŸã³ã«è¨ˆç®—ã—ã‚ˆã†ã¨ã™ã‚‹ã¨ã‚‚ã®ã™ã”ãé…ããªã‚Šã¾ã™ã€‚

#coding:utf-8
import math
import sys
from collections import defaultdict

class NaiveBayes:
    """Multinomial Naive Bayes"""
    def __init__(self):
        self.categories = set()     # ã‚«ãƒ†ã‚´ãƒªã®é›†åˆ
        self.vocabularies = set()   # ãƒœã‚ãƒ£ãƒ–ãƒ©ãƒªã®é›†åˆ
        self.wordcount = {}         # wordcount[cat][word] ã‚«ãƒ†ã‚´ãƒªã§ã®å˜èªžã®å‡ºç¾å›žæ•°
        self.catcount = {}          # catcount[cat] ã‚«ãƒ†ã‚´ãƒªã®å‡ºç¾å›žæ•°
        self.denominator = {}       # denominator[cat] P(word|cat)ã®åˆ†æ¯ã®å€¤
    
    def train(self, data):
        """ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºåˆ†é¡žå™¨ã®è¨“ç·´"""
        # æ–‡æ›¸é›†åˆã‹ã‚‰ã‚«ãƒ†ã‚´ãƒªã‚’æŠ½å‡ºã—ã¦è¾žæ›¸ã‚’åˆæœŸåŒ–
        for d in data:
            cat = d[0]
            self.categories.add(cat)
        for cat in self.categories:
            self.wordcount[cat] = defaultdict(int)
            self.catcount[cat] = 0
        # æ–‡æ›¸é›†åˆã‹ã‚‰ã‚«ãƒ†ã‚´ãƒªã¨å˜èªžã‚’ã‚«ã‚¦ãƒ³ãƒˆ
        for d in data:
            cat, doc = d[0], d[1:]
            self.catcount[cat] += 1
            for word in doc:
                self.vocabularies.add(word)
                self.wordcount[cat][word] += 1
        # å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡ã®åˆ†æ¯ã®å€¤ã‚’ã‚ã‚‰ã‹ã˜ã‚ä¸€æ‹¬è¨ˆç®—ã—ã¦ãŠãï¼ˆé«˜é€ŸåŒ–ã®ãŸã‚ï¼‰
        for cat in self.categories:
            self.denominator[cat] = sum(self.wordcount[cat].values()) + len(self.vocabularies)
    
    def classify(self, doc):
        """äº‹å¾Œç¢ºçŽ‡ã®å¯¾æ•° log(P(cat|doc)) ãŒã‚‚ã£ã¨ã‚‚å¤§ããªã‚«ãƒ†ã‚´ãƒªã‚’è¿”ã™"""
        best = None
        max = -sys.maxint
        for cat in self.catcount.keys():
            p = self.score(doc, cat)
            if p > max:
                max = p
                best = cat
        return best
    
    def wordProb(self, word, cat):
        """å˜èªžã®æ¡ä»¶ä»˜ãç¢ºçŽ‡ P(word|cat) ã‚’æ±‚ã‚ã‚‹"""
        # ãƒ©ãƒ—ãƒ©ã‚¹ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ã‚’é©ç”¨
        # wordcount[cat]ã¯defaultdict(int)ãªã®ã§ã‚«ãƒ†ã‚´ãƒªã«å˜åœ¨ã—ãªã‹ã£ãŸå˜èªžã¯ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®0ã‚’è¿”ã™
        # åˆ†æ¯ã¯train()ã®æœ€å¾Œã§ä¸€æ‹¬è¨ˆç®—æ¸ˆã¿
        return float(self.wordcount[cat][word] + 1) / float(self.denominator[cat])
    
    def score(self, doc, cat):
        """æ–‡æ›¸ãŒä¸Žãˆã‚‰ã‚ŒãŸã¨ãã®ã‚«ãƒ†ã‚´ãƒªã®äº‹å¾Œç¢ºçŽ‡ã®å¯¾æ•° log(P(cat|doc)) ã‚’æ±‚ã‚ã‚‹"""
        total = sum(self.catcount.values())  # ç·æ–‡æ›¸æ•°
        score = math.log(float(self.catcount[cat]) / total)  # log P(cat)
        for word in doc:
            # logã‚’ã¨ã‚‹ã¨ã‹ã‘ç®—ã¯è¶³ã—ç®—ã«ãªã‚‹
            score += math.log(self.wordProb(word, cat))  # log P(word|cat)
        return score
    
    def __str__(self):
        total = sum(self.catcount.values())  # ç·æ–‡æ›¸æ•°
        return "documents: %d, vocabularies: %d, categories: %d" % (total, len(self.vocabularies), len(self.categories))

if __name__ == "__main__":
    # Introduction to Information Retrieval 13.2ã®ä¾‹é¡Œ
    data = [["yes", "Chinese", "Beijing", "Chinese"],
            ["yes", "Chinese", "Chinese", "Shanghai"],
            ["yes", "Chinese", "Macao"],
            ["no", "Tokyo", "Japan", "Chinese"]]
    
    # ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºåˆ†é¡žå™¨ã‚’è¨“ç·´
    nb = NaiveBayes()
    nb.train(data)
    print nb
    print "P(Chinese|yes) = ", nb.wordProb("Chinese", "yes")
    print "P(Tokyo|yes) = ", nb.wordProb("Tokyo", "yes")
    print "P(Japan|yes) = ", nb.wordProb("Japan", "yes")
    print "P(Chinese|no) = ", nb.wordProb("Chinese", "no")
    print "P(Tokyo|no) = ", nb.wordProb("Tokyo", "no")
    print "P(Japan|no) = ", nb.wordProb("Japan", "no")
    
    # ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã®ã‚«ãƒ†ã‚´ãƒªã‚’äºˆæ¸¬
    test = ["Chinese", "Chinese", "Chinese", "Tokyo", "Japan"]
    print "log P(yes|test) =", nb.score(test, "yes")
    print "log P(no|test) =", nb.score(test, "no")
    print nb.classify(test)

ä¸Šã®ãƒ—ãƒã‚°ãƒ©ãƒ ã§ã¯ã€Introduction to Information Retrieval（IIR）のTable 13.1の例題ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã¯ã€ãƒªã‚¹ãƒˆã®ãƒªã‚¹ãƒˆã§æ¸¡ã—ã¾ã™ã€‚å†…å´ã®ãƒªã‚¹ãƒˆãŒ1ã¤ã®è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã§ã™ã€‚ãƒªã‚¹ãƒˆã®0ç•ªç›®ã®è¦ç´ ãŒã‚«ãƒ†ã‚´ãƒªã«ãªã‚Šã¾ã™ï¼ˆã‚ˆãä½¿ã‚ã‚Œã‚‹å½¢å¼ï¼‰ã€‚ãŸã¨ãˆã°ã€1ã¤ã‚ã®è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã¯ã€bag-of-wordsè¡¨ç¾ã§[Chinese, Beijing, Chinese]ã¨ã„ã†æ–‡æ›¸ãŒã‚«ãƒ†ã‚´ãƒªyesã§ã‚ã‚‹ã“ã¨ã‚’æ„å‘³ã—ã¦ã„ã¾ã™ã€‚4ã¤ã®è¨“ç·´ãƒ‡ãƒ¼ã‚¿ã‚’ä¸Žãˆã¦ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºåˆ†é¡žå™¨ã‚’å¦ç¿’ã—ã€[Chinese, Chinese, Chinese, Tokyo, Japan]ã¨ã„ã†æ–‡æ›¸ã®ã‚«ãƒ†ã‚´ãƒªã‚’åˆ†é¡žå™¨ã§äºˆæ¸¬ã—ã¦ã¾ã™ã€‚IIRã®çµæžœã¨åŒã˜ãyesã«åˆ†é¡žã•ã‚Œã¾ã™ã€‚ä»¥ä¸‹ã€å‡ºåŠ›çµæžœã§ã™ã€‚

documents: 4, vocabularies: 6, categories: 2
P(Chinese|yes) =  0.428571428571
P(Tokyo|yes) =  0.0714285714286
P(Japan|yes) =  0.0714285714286
P(Chinese|no) =  0.222222222222
P(Tokyo|no) =  0.222222222222
P(Japan|no) =  0.222222222222
log P(yes|test) = -8.10769031284
log P(no|test) = -8.906681345
yes

ã¾ã¨ã‚

ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã«ã¯2ã¤ã®ä»£è¡¨çš„ãªãƒ¢ãƒ‡ãƒ«ãŒã‚ã‚Šã¾ã™ã€‚å¤šé …ãƒ¢ãƒ‡ãƒ«ï¼ˆMultinomial Modelï¼‰ã¨ãƒ™ãƒ«ãƒŒãƒ¼ã‚¤ãƒ¢ãƒ‡ãƒ«ï¼ˆBernoulli Modelï¼‰ã§ã™ã€‚ä»Šå›žã€å®Ÿè£…ã—ãŸã®ã¯å¤šé …ãƒ¢ãƒ‡ãƒ«ã§ã™ã€‚ç§ã®å°è±¡ã§ã¯ã€å¤šé …ãƒ¢ãƒ‡ãƒ«ã®æ–¹ãŒã‚ˆãä½¿ã‚ã‚Œã¦ã„ã‚‹æ°—ãŒã—ã¾ã™ã€‚ãƒ™ãƒ«ãƒŒãƒ¼ã‚¤ãƒ¢ãƒ‡ãƒ«ã¯ã‚ã¾ã‚Šè¦‹ã‹ã‘ã¾ã›ã‚“ã€‚2ã¤ã®åˆ†é¡žç²¾åº¦ã‚’æ¯”è¼ƒã—ãŸè«–æ–‡ï¼ˆMcCallum,1998ï¼‰ã«ã‚ˆã‚‹ã¨ãƒœã‚ãƒ£ãƒ–ãƒ©ãƒªæ•°ãŒå¤šã„å ´åˆã¯å¤šé …ãƒ¢ãƒ‡ãƒ«ã®æ–¹ãŒç²¾åº¦ãŒé«˜ã„ã“ã¨ãŒç¤ºã•ã‚Œã¦ã„ã¾ã™ã€‚ãƒ™ãƒ«ãƒŒãƒ¼ã‚¤ãƒ¢ãƒ‡ãƒ«ã¯å‡ºç¾ã—ãªã„å˜èªžã®ç¢ºçŽ‡ã‚‚è€ƒæ…®ã™ã‚‹ã®ã§è¨ˆç®—é‡ã‚‚å¤§ãã„ã§ã™ã€‚

ä»Šå›žã¯ã‚‚ã£ã¨ã‚‚åŸºç¤Žçš„ãªãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã‚ã‚‹ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã‚’å®Ÿè£…ã—ã¦ã¿ã¾ã—ãŸã€‚ç”¨ã„ãŸä¾‹é¡ŒãŒã™ã”ãå˜ç´”ã§ã‚ã‚ŠãŒãŸã¿ãŒãªã‹ã£ãŸã®ã§ã€æ¬¡ã¯ã‚¹ãƒ‘ãƒ ãƒ¡ãƒ¼ãƒ«ã®åˆ†é¡žã‚„ã“ã®ãƒ–ãƒã‚°ã®è¨˜äº‹ã‚«ãƒ†ã‚´ãƒªï¼ˆå·¦ã«ã‚«ãƒ†ã‚´ãƒªãƒ¼ãƒ¡ãƒ‹ãƒ¥ãƒ¼ã£ã¦ã®ãŒã‚ã‚Šã¾ã™ï¼‰ã‚’åˆ†é¡žã—ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚

å‚è€ƒæ–‡çŒ®

Introduction to Information Retrieval (é€šç§°IIRï¼‰13章 (PDF) - Webã§å…¨æ–‡å…¬é–‹ã•ã‚Œã¦ã„ã¾ã™
F. Sebastiani: Machine Learning in Automated Text Categorization, ACM Computing Surveys, 34(1), 2002. - ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã®åŒ…æ‹¬çš„ãªã‚µãƒ¼ãƒ™ã‚¤ã€‚ãŸã ã—ã€ã¡ã¨å¤ã„ã€‚
A. McCallum and K. Nigam: A Comparison of Event Models for Naive Bayes Text Classification (PDF), AAAI-98 Workshop on Learning for Text Categorization, 1998. - ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã®å¤šé …ãƒ¢ãƒ‡ãƒ«ã¨ãƒ™ãƒ«ãƒŒãƒ¼ã‚¤ãƒ¢ãƒ‡ãƒ«ã®æ¯”è¼ƒã‚’ã—ãŸæœ‰åãªè«–æ–‡ã€‚
ベイジアン (bayesian)、ベイズ (bayes)、ナイーブベイズ (naive bayes) ってなんですか？ - ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã‚’ç”¨ã„ãŸã‚¹ãƒ‘ãƒ ãƒ•ã‚£ãƒ«ã‚¿ãƒ¼ã§æœ‰åãªPOPFileã®è§£èª¬
ナイーブベイズによるテキスト分類体験アプリ
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ

è£œè¶³

å¯¾æ•°ã‚’ã¨ã£ã¦å¤§å°ã‚’æ¯”è¼ƒã™ã‚‹ã“ã¨ã§åˆ†é¡žçµæžœã‚’å‡ºã™ã“ã¨ã¯ã§ãã¾ã™ãŒã€åˆ†é¡žçµæžœã‚’å‡ºã™ã ã‘ã§ãªãã€ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã®å„ã‚«ãƒ†ã‚´ãƒªã¸ã®äº‹å¾Œç¢ºçŽ‡ P(cat|doc) ã‚’æ±‚ã‚ãŸã„ã¨ãã¯ä¸‹ã®ã‚ˆã†ã«ã—ã¾ã™ã€‚

$P(cat|doc) = \frac{P(cat) P(doc|cat)}{P(doc)} \propto P(cat) P(doc|cat)$

ã®å¼ã§P(cat|doc)ã‚’è¨ˆç®—ã™ã‚Œã°ã„ã„ã‚ã‘ã§ã™ãŒã€æ£è¦åŒ–ä¿‚æ•°ï¼ˆç¢ºçŽ‡ã®å’ŒãŒ1ã«ãªã‚‹ã‚ˆã†ã«èª¿æ•´ã™ã‚‹ãŸã‚ã®ä¿‚æ•°ï¼‰ã®åˆ†æ¯ã®p(doc)ã‚’æ±‚ã‚ã‚‹ã®ãŒã‘ã£ã“ã†å¤§å¤‰ã§ã™ã€‚ãã®ãŸã‚ä¸‹ã®ã‚ˆã†ãªã‚ˆãçŸ¥ã‚‰ã‚ŒãŸè£æŠ€ãŒã‚ã‚Šã¾ã™ã€‚

    def postProb(self, doc, cat):
        """æ–‡æ›¸ãŒä¸Žãˆã‚‰ã‚ŒãŸã¨ãã®ã‚«ãƒ†ã‚´ãƒªã®ã€Œæ£è¦åŒ–ã—ã¦ã„ãªã„
       ï¼ˆ=p(doc)ã§å‰²ã‚‰ãªã„ï¼‰ã€äº‹å¾Œç¢ºçŽ‡ P'(cat|doc) ã‚’æ±‚ã‚ã‚‹"""
        total = sum(self.catcount.values())  # ç·æ–‡æ›¸æ•°
        pp = float(self.catcount[cat]) / total  # äº‹å‰ç¢ºçŽ‡P(cat)
        # å°¤åº¦ P(doc|cat) = P(word1|cat) * p(word2|cat) * ...
        # å¯¾æ•°ã‚’ã¨ã‚‰ãªã„ã®ã§æŽ›ã‘ç®—ã«ãªã‚‹ï¼ˆéžå¸¸ã«å°ã•ãªå€¤ï¼ï¼‰
        for word in doc:
            pp *= self.wordProb(word, cat)
        return pp

    # ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã®å„ã‚«ãƒ†ã‚´ãƒªã¸ã®äº‹å¾Œç¢ºçŽ‡ã‚’æ±‚ã‚ã‚‹
    test = ["Chinese", "Chinese", "Chinese", "Tokyo", "Japan"]
    p1 = nb.postProb(test, "yes")  # æ£è¦åŒ–ã•ã‚Œã¦ã„ãªã„ã®ã§ç¢ºçŽ‡ã§ã¯ãªã„ï¼
    p2 = nb.postProb(test, "no")   # æ£è¦åŒ–ã•ã‚Œã¦ã„ãªã„ã®ã§ç¢ºçŽ‡ã§ã¯ãªã„ï¼
    # ä¸‹ã®ã‚ˆã†ã«ã™ã‚‹ã¨è¶³ã—ã¦1ã«ãªã‚‹ç¢ºçŽ‡ã«ãªã‚‹
    print "P(yes|test) =", p1 / (p1 + p2)
    print "P(no|test)  =", p2 / (p1 + p2)

çµæžœã¯ã€

P(yes|test) = 0.689758611763
P(no|test)  = 0.310241388237

ã¨ãªã‚Šã€ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ãŒyesã§ã‚ã‚‹ç¢ºçŽ‡ã¯69%ã€noã§ã‚ã‚‹ç¢ºçŽ‡ã¯31%ã¨ãªã‚Šã€è¶³ã™ã¨1ã«ãªã‚‹ç¢ºçŽ‡ã«ãªã£ã¦ã¾ã™ã€‚

ã‚‚ã¡ã‚ã‚“ã€åˆ†æ¯ã®p(doc)ã‚’p(cat1)p(doc|cat1) + p(cat2)p(doc|cat2) + ...ã®ã‚ˆã†ã«å±•é–‹ã—ã¦å¼ã©ãŠã‚Šã«è¨ˆç®—ã—ã¦ã‚‚åŒã˜çµæžœã«ãªã‚Šã¾ã™ã€‚

äººå·¥çŸ¥èƒ½ã«é–¢ã™ã‚‹æ–å‰µéŒ²

ã“ã®ãƒ–ãƒã‚°ã§ã¯äººå·¥çŸ¥èƒ½ã®ã•ã¾ã–ã¾ãªåˆ†é‡Žã«ã¤ã„ã¦èª¿æŸ»ã—ãŸã“ã¨ã‚’ã¾ã¨ã‚ã¦ã„ã¾ã™ï¼ˆæ›´æ–°åœæ¢: 2019å¹´12æœˆ31æ—¥ï¼‰

ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚ºã‚’ç”¨ã„ãŸãƒ†ã‚ã‚¹ãƒˆåˆ†é¡ž

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¨ã¯

æ•™å¸«ã‚ã‚Šå¦ç¿’

Bag-of-words

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã®æŠ€æ³•

ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚º

å¯¾æ•°

ã‚¼ãƒé »åº¦å•é¡Œ

Pythonã§å®Ÿè£…

ã¾ã¨ã‚

å‚è€ƒæ–‡çŒ®

è£œè¶³

ãƒ†ã‚­ã‚¹ãƒˆåˆ†é¡žã¨ã¯

æ•™å¸«ã‚ã‚Šå­¦ç¿’

Bag-of-words

ãƒ†ã‚­ã‚¹ãƒˆåˆ†é¡žã®æŠ€æ³•

ãƒŠã‚¤ãƒ¼ãƒ–ãƒ™ã‚¤ã‚º

å¯¾æ•°

ã‚¼ãƒ­é »åº¦å•é¡Œ

Pythonã§å®Ÿè£…

ã¾ã¨ã‚

å‚è€ƒæ–‡çŒ®

è£œè¶³

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã¨ã¯

æ•™å¸«ã‚ã‚Šå¦ç¿’

ãƒ†ã‚ã‚¹ãƒˆåˆ†é¡žã®æŠ€æ³•

ã‚¼ãƒé »åº¦å•é¡Œ

Pythonã§å®Ÿè£…

ã¾ã¨ã‚

å‚è€ƒæ–‡çŒ®