é©åˆ‡ãªã‚¯ãƒ©ã‚¹ã‚¿æ•°ã‚’æŽ¨å®šã™ã‚‹X-meansæ³•

K-meansæ³•ã«ã‚ˆã‚‹ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã§ã¯ã€ã‚ã‚‰ã‹ã˜ã‚ã‚¯ãƒ©ã‚¹ã‚¿æ•°Kã‚’å›ºå®šã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚HatenarMapsã§ã‚‚K-meansæ³•ã‚’ä½¿ã£ã¦ã„ã‚‹ã®ã§ã™ãŒã€ã‚¯ãƒ©ã‚¹ã‚¿æ•°ã¯ï¼ˆç‰¹ã«æ ¹æ‹ ã‚‚ãªãï¼‰200å€‹ã«æ±ºã‚æ‰“ã¡ã«ãªã£ã¦ã„ã¾ã—ãŸã€‚

ã“ã‚Œã«å¯¾ã—ã¦ã€X-meansæ³•ã¨ã„ã†K-meansæ³•ã®æ‹¡å¼µãŒææ¡ˆã•ã‚Œã¦ã„ã‚‹ã“ã¨ã‚’çŸ¥ã‚Šã¾ã—ãŸã€‚X-meansæ³•ã‚’ä½¿ã†ã¨ã€ãƒ‡ãƒ¼ã‚¿ã«å¿œã˜ã¦æœ€é©ãªã‚¯ãƒ©ã‚¹ã‚¿æ•°ã‚’æŽ¨å®šã§ãã¾ã™ã€‚

K-means and X-means implementations
http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf

X-meansæ³•ã®è€ƒãˆæ–¹ã¯ã€K=2ã§å†å¸°çš„ã«K-meansæ³•ã‚’å®Ÿè¡Œã—ã¦ã„ãã¨ã„ã†ã‚‚ã®ã§ã€ã‚¯ãƒ©ã‚¹ã‚¿ã®åˆ†å‰²å‰ã¨åˆ†å‰²å¾Œã§BICï¼ˆãƒ™ã‚¤ã‚ºæƒ…å ±é‡è¦æº–ï¼‰ã‚’æ¯”è¼ƒã—ã€å€¤ãŒæ”¹å–„ã—ãªããªã‚‹ã¾ã§åˆ†å‰²ã‚’ç¶šã‘ã¾ã™ã€‚

èª¿ã¹ãŸã¨ã“ã‚ã€Javaã®ãƒ‡ãƒ¼ã‚¿ãƒžã‚¤ãƒ‹ãƒ³ã‚°ãƒ„ãƒ¼ãƒ«ã®Wekaã®ä¸ã«ã‚‚X-meansã®ã‚³ãƒ¼ãƒ‰ãŒå«ã¾ã‚Œã¦ã„ã¾ã™ã€‚ãŸã ã€BICã®ç®—å‡ºæ³•ãŒè«–æ–‡ã¨ã¯å¾®å¦™ã«é•ã£ã¦ã„ã¾ã™ã€‚

Wekaã‚‚å‚è€ƒã«ã—ãªãŒã‚‰X-meansæ³•ã‚’å®Ÿè£…ã—ã¦ã€ä»¥å‰æ›¸ã„ãŸK-means++ã¨çµ„ã¿åˆã‚ã›ã¦HatenarMapsã«æŽ¡ç”¨ã—ã¦ã¿ã¾ã—ãŸã€‚

ä»Šã®ã¨ã“ã‚HatenarMapsã§ã¯ã€ã¯ã¦ãªãƒ€ã‚¤ã‚¢ãƒªãƒ¼ãƒ¦ãƒ¼ã‚¶ã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯æ•°ä¸Šä½ç´„3000äººã‚’ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã—ã¦ã„ã‚‹ã®ã§ã™ãŒã€X-meansæ³•ã§æŽ¨å®šã•ã‚ŒãŸã‚¯ãƒ©ã‚¹ã‚¿æ•°ã¯100å‰å¾Œã«ãªã‚Šã¾ã—ãŸã€‚

ä»¥ä¸‹ã¯K-meansæ³•ã§ã‚¯ãƒ©ã‚¹ã‚¿æ•°ã‚’å›ºå®šã—ã¦ç”Ÿæˆã—ã¦ã„ãŸã€å¾“æ¥ã®HatenarMapsã§ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿æ•°ãŒæœ€é©åŒ–ã•ã‚Œã¦ã„ãªã‹ã£ãŸã›ã„ã‹ã€K-meansæ³•ã®å¾Œã«å®Ÿè¡Œã™ã‚‹éšŽå±¤ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°çµæžœã®ãƒ„ãƒªãƒ¼ã®å¹³è¡¡ãŒæ‚ªãã¦ã€èµ¤ã§å›²ã‚“ã ã‚¨ãƒªã‚¢ãŒå‘¨ã‚Šã«æ¯”ã¹ã¦æ¸¦å·»ãçŠ¶ã«æ·±ããªã£ã¦ã—ã¾ã£ã¦ã„ã¾ã™ã€‚