Introduction to Information Retrieval #16 ã®å¾©ç¿’è³‡æ–™ - naoyaã®ã¯ã¦ãªãƒ€ã‚¤ã‚¢ãƒªãƒ¼

ã—ã°ã‚‰ãé–“ãŒç©ºã„ã¦ã—ã¾ã„ã¾ã—ãŸã€‚Introduction to Information Retrieval è¼ªèªä¼š 16ç« ã®å¾©ç¿’è³‡æ–™ã‚’ä»¥ä¸‹ã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã—ã¾ã—ãŸã€‚

http://bloghackers.net/~naoya/iir/ppt/iir_16.ppt

16ç« ã®ãƒ†ãƒ¼ãƒžã¯ã€"Flat Clustering" ã§è©±é¡Œã¯ã‚¯ãƒ©ã‚¹åˆ†é¡žã‹ã‚‰ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã¸ã¨ç§»ã‚Šã¾ã™ã€‚16ç« ã§ã¯ã‚¯ãƒ©ã‚¹ã‚¿ã¨ã‚¯ãƒ©ã‚¹ã‚¿ã®é–“ã«é–¢ä¿‚æ€§ãŒãªã„ãƒ•ãƒ©ãƒƒãƒˆã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã‚’æ‰±ã„ã€ç¶šã 17ç« ã§ã¯ã‚¯ãƒ©ã‚¹ã‚¿é–“ã«éšŽå±¤çš„æ§‹é€ ã‚’è¦‹å‡ºã™éšŽå±¤åž‹ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚° (Hierachical clustering) ã‚’æ‰±ã„ã¾ã™ã€‚

ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

13ç« ã‹ã‚‰15ç« ã¾ã§ã¯ Naive Bayes ã‚„ SVM ãªã©ã«ã‚ˆã‚‹ "Classification" ãŒè©±ã®ä¸»é¡Œã§ã—ãŸã€‚ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã‚‚åŒæ§˜ã«æƒ…å ±ã®ã‚°ãƒ«ãƒ¼ãƒ”ãƒ³ã‚°ã‚’è¡Œã†ã‚‚ã®ã§ã™ãŒã€Classification ã¨ Clustering ã¯æ•™å¸«ã‚ã‚Šå¦ç¿’ã‹ã€æ•™å¸«ãªã—å¦ç¿’ã‹ã¨ã„ã†ç‚¹ãŒå¤§ããç•°ãªã‚Šã¾ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã¯äººæ‰‹ã«ã‚ˆã‚‹ã‚«ãƒ†ã‚´ãƒªåˆ¤å®šãªã—ã«ã‚°ãƒ«ãƒ¼ãƒ”ãƒ³ã‚°ã‚’è¡Œã†ã€æ•™å¸«ãªã—å¦ç¿’ã§ã™ã€‚

16ç« ã§ã¯ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®åŸºç¤Žæ¦‚å¿µã€ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®åˆ†é¡žã€æƒ…å ±æ¤œç´¢ã«ãŠã‘ã‚‹ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®å¿œç”¨ä¾‹ã€å®šé‡çš„ãªè©•ä¾¡ã®æ‰‹æ³•ãªã©ã‚’è§£èª¬ã—ãŸå¾Œã€å…·ä½“çš„ãªå®Ÿç¾æ–¹æ³•ã¨ã—ã¦ K-means ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¨ EM ã‚¢ãƒ«ã‚´ãƒªãƒ ãŒç´¹ä»‹ã•ã‚Œã¦ã„ã¾ã™ã€‚

K-means ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ãƒ•ãƒ©ãƒƒãƒˆã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®åŸºç¤Žçš„ã‹ã¤é‡è¦ãªã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã€ãƒ™ã‚¯ãƒˆãƒ«ç©ºé–“ä¸Šã®ãƒ™ã‚¯ãƒˆãƒ«ã‚’ã€ãƒ™ã‚¯ãƒˆãƒ«ã®é‡å¿ƒã¨ã®å¹³å‡è·é›¢ã«ã‚ˆã£ã¦ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã™ã‚‹æ‰‹æ³•ã§ã™ã€‚æœ€åˆã«ã‚·ãƒ¼ãƒ‰ã«ãªã‚‹é‡å¿ƒã‚’é©å½“ã«é¸ã‚“ã§ã€å†å¸°çš„ã«é‡å¿ƒã‚’ç§»å‹•ã•ã›ãªãŒã‚‰ã‚¯ãƒ©ã‚¹ã‚¿ã®é‡å¿ƒã‚’ç®—å‡ºã—ã¾ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿åŒ–ã®ãƒ«ãƒ¼ãƒ«ã§ã‚ã‚‹ç›®çš„é–¢æ•°ã«ã¯ RSS (Residual sum of squares) ã¨ã„ã†ã€å„ãƒ™ã‚¯ãƒˆãƒ«ã®é‡å¿ƒã‹ã‚‰ã®å¹³å‡è·é›¢ã®äºŒä¹—å€¤ã‚’åˆ©ç”¨ã—ã€ã“ã‚Œã‚’æœ€å°åŒ–ã™ã‚‹ã“ã¨ãŒã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®ã‚´ãƒ¼ãƒ«ã«ãªã‚Šã¾ã™ã€‚æ›¸ç±å†…ã§ã¯2æ¬¡å…ƒã®ãƒ™ã‚¯ãƒˆãƒ«ã®é‡å¿ƒãŒ K-means ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã«ã‚ˆã£ã¦ç§»å‹•ã—ã¦ã„ãæ§˜ãŒå›³è§£ã•ã‚Œã¦ã„ã¦ã€é¢ç™½ã„ã§ã™ã€‚

K-means ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®è¨ˆç®—é‡ã¯ã€é‡å¿ƒã®å†è¨ˆç®—å›žæ•°Iã€ã‚¯ãƒ©ã‚¹ã‚¿ã®æ•°Kã€ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆæ•°Nã€ãƒ™ã‚¯ãƒˆãƒ«ã®æ¬¡å…ƒM (ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’bag of words ãƒ¢ãƒ‡ãƒ«ã§ãƒ™ã‚¯ãƒˆãƒ«åŒ–ã—ã¦ã„ã‚‹ã®ã§ã‚ã‚Œã°èªžå½™æ•°) ã«å¯¾ã—ã¦ç·šå½¢ Î˜(IKNM) ã§ã€éšŽå±¤åž‹ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã«æ¯”è¼ƒã™ã‚‹ã¨åŠ¹çŽ‡ã¯è‰¯ã„ã§ã™ã€‚ãŸã ã—ã€ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆæ•°ã‚„ãƒ™ã‚¯ãƒˆãƒ«ã®æ¬¡å…ƒã¯ã‚·ã‚¹ãƒ†ãƒ ã®è¦æ¨¡ã«åˆã‚ã›ã¦å¤§ãããªã£ã¦ã„ãã®ã§ã€è»¢ç½®ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‹ã‚‰ã‚³ã‚µã‚¤ãƒ³é¡žä¼¼åº¦ã‚’æ±‚ã‚ãŸæ™‚åŒæ§˜ã«ã€ãƒ™ã‚¯ãƒˆãƒ«ãŒã‚¹ãƒ‘ãƒ¼ã‚¹ã§ã‚ã‚‹ã“ã¨ã‚„å˜èªžã®é‡è¦åº¦ãªã©ã‚’è€ƒæ…®ã—ã¦è¨ˆç®—é‡ã‚’ä¸‹ã’ã‚‹å·¥å¤«ãŒå¿…è¦ã§ã™ã€‚

EM ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ K-means ã‚’ä¸€èˆ¬åŒ–ã—ã¦ã€K-means ãŒãƒãƒ¼ãƒ‰ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã§ã‚ã‚‹ã®ã«å¯¾ã—ã‚½ãƒ•ãƒˆã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã‚’å®Ÿç¾ã™ã‚‹ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã™ã€‚

æ¬¡å›žè¼ªè¬›ã»ã‹

ä»Šæ—¥ã®è¼ªèªä¼šã€ç¬¬17ç« ã¯å¼•ãç¶šãã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ãŒãƒ†ãƒ¼ãƒžã§ã€éšŽå±¤åž‹ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®è©±ã§ã—ãŸã€‚æ‹…å½“ã®æ‰æœ¬ã•ã‚“ã®å’Œè¨³æ–‡æ›¸ã®ã‚¯ã‚ªãƒªãƒ†ã‚£ãŒé«˜ã™ãŽ (Tex ã§æ•°å¼ã¾ã§ç¶ºéº—ã«ãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã—ãŸæ–‡æ›¸ã‚’ä½œæˆã•ã‚Œã¦ã„ã¾ã—ãŸ) ã¦å¹ãã¾ã—ãŸã€‚ç¶šã18 ç« ã¯ Latent Semantic Indexing ã§ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã‚‚ãã†ã§ã—ãŸãŒã€ã“ã“æœ€è¿‘ã®ç« ã§ã¯æ‰±ã†æ¤œç´¢ãƒ¢ãƒ‡ãƒ«ãŒãƒ™ã‚¯ãƒˆãƒ«ç©ºé–“ãƒ¢ãƒ‡ãƒ«ä¸å¿ƒã«æˆ»ã£ã¦ã„ã¾ã™ã€‚

æ¬¡å›žã®è¼ªèªä¼šã¯ 2/7 (åœŸ) äºˆå®šã€‚æ¬¡å›žè¼ªèªä¼šå¾Œã€ã„ã¤ã‚‚é€šã‚Šå¾©ç¿’è³‡æ–™ã‚’ã‚¢ãƒƒãƒ—ã—ã¾ã™ã€‚

éŽåŽ»ã®ç« ã®å¾©ç¿’è³‡æ–™ ppt ã¯åŒ URL ã®ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒª (http://bloghackers.net/~naoya/iir/ppt/) ã‹ã‚‰ä¸€è¦§å¯èƒ½ã§ã™ã€‚

Introduction to Information Retrieval

ä½œè€…: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze
å‡ºç‰ˆç¤¾/ãƒ¡ãƒ¼ã‚«ãƒ¼: Cambridge University Press
ç™ºå£²æ—¥: 2008/07/07
ãƒ¡ãƒ‡ã‚£ã‚¢: ãƒãƒ¼ãƒ‰ã‚«ãƒãƒ¼
è³¼å…¥: 7äºº ã‚¯ãƒªãƒƒã‚¯: 115å›ž
ã“ã®å•†å“ã‚’å«ã‚€ãƒ–ãƒã‚° (37ä»¶) ã‚’è¦‹ã‚‹

ãŠè©«ã³

2å›žã»ã©è¼ªèªä¼šã«å‚åŠ ã§ããªã„å›žãŒç¶šã„ãŸã®ã§ã€ã¾ã 13 ã‹ã‚‰ 15 ç« ã¾ã§ã®å¾©ç¿’è³‡æ–™ãŒã‚ã‚Šã¾ã›ã‚“ã€‚æš‡ã‚’è¦‹ã¦è¿½åŠ ã§ãã‚Œã°ã¨æ€ã£ã¦ã„ã¾ã™ã€‚

ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

æ¬¡å›žè¼ªè¬›ã»ã‹

ãŠè©«ã³

æ¬¡å›žè¼ªè¬›ã»ã‹

ãŠè©«ã³