Hartigan-Wong ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’ç¢ºèªã™ã‚‹

R ã® stats ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã§æä¾›ã•ã‚Œã¦ã„ã‚‹ kmeans é–¢æ•°ã¯ã€æ—¢å®šã§ã¯ Hartigan-Wong ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’åˆ©ç”¨ã—ã¾ã™ã€‚é€šå¸¸ã® k-means (Lloyd ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ) ã§ã¯ã€å„ãƒ‡ãƒ¼ã‚¿ç‚¹ã‚’æœ€ã‚‚è¿‘ã„ã‚¯ãƒ©ã‚¹ã‚¿ã«å‰²ã‚Šå½“ã¦ã‚‹æ“ä½œã‚’ç¹°ã‚Šè¿”ã—ã¾ã™ãŒã€Hartigan-Wong ã®æ–¹æ³•ã¯ã‚ˆã‚Šç›´æŽ¥çš„ã«ã€é‡ååŒ–èª¤å·®ã®å¢—åˆ†ã‚’æœ€å°åŒ–ã™ã‚‹ã‚¯ãƒ©ã‚¹ã‚¿ã«ãƒ‡ãƒ¼ã‚¿ç‚¹ã‚’å‰²ã‚Šå½“ã¦ã‚‹æ–¹æ³•ã«ãªã£ã¦ã„ã¾ã™ã€‚

Hartigan-Wong ã®è«–æ–‡*1ã¯ä¸‹è¨˜ã®ã‚¦ã‚§ãƒ–ã‚µã‚¤ãƒˆã«ã‚ã‚Šã¾ã™*2ã€‚
http://www.jstor.org/stable/2346830

ã¾ãŸã€ä¸‹è¨˜ã® 2 æœ¬ã®è«–æ–‡*3 *4ãªã©ã§ã€ã“ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã«ã¤ã„ã¦è«–ã˜ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚ãŸã¨ãˆã°å‰è€…ã«ã‚ˆã‚‹ã¨ã€Hartigan-Wong ã®æ–¹æ³•ã§è¦‹ã¤ã‹ã‚‹å±€æ‰€è§£ã¯ Lloyd ã®æ–¹æ³•ã§è¦‹ã¤ã‹ã‚‹å±€æ‰€è§£ã®çœŸéƒ¨åˆ†é›†åˆã«ãªã£ã¦ã„ã‚‹ã¨ã®ã“ã¨ã§ã™ (Theorem 2.2)*5ã€‚
http://www.jmlr.org/proceedings/papers/v9/telgarsky10a/telgarsky10a.pdf
http://ijcai.org/papers13/Papers/IJCAI13-249.pdf

å¾Œè€…ã®è«–æ–‡ã®å†…å®¹ãŒç§ã«ã¯åˆ†ã‹ã‚Šã‚„ã™ãæ€ãˆãŸã®ã§ã€ã“ã¡ã‚‰ã§ Hartigan-Wong ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚è«–æ–‡ã®å¼ (2) ãŒ Hartigan-Wong ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®æœ¬è³ªã§ã™ã€‚ã“ã®å¼ã¯ã€ã‚¯ãƒ©ã‚¹ã‚¿ã«ãƒ‡ãƒ¼ã‚¿ç‚¹ã‚’è¿½åŠ ã™ã‚‹ã“ã¨ã«ã‚ˆã£ã¦ç”Ÿã˜ã‚‹é‡ååŒ–èª¤å·®ã®å¢—åŠ é‡ã‚’æ„å‘³ã—ã¾ã™ã€‚è·é›¢é–¢æ•° $d(\cdot, \cdot)$ ãŒäºŒä¹—ãƒ¦ãƒ¼ã‚¯ãƒªãƒƒãƒ‰è·é›¢ã®å ´åˆã«ã¯ã€å¼ (7) ã®ã‚ˆã†ã«å¤‰å½¢ã§ãã¾ã™ã€‚ã¾ãŸã€åŒè«–æ–‡ã® Figure 1 ã¯ã€ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’æ“¬ä¼¼ã‚³ãƒ¼ãƒ‰ã§ç¤ºã—ãŸã‚‚ã®ã§ã™ã€‚Figure 1 ã® ${\Delta}D(x, c)$ ã‚’å¼ (7) ã§å…·ä½“çš„ã«è¨ˆç®—ã™ã‚Œã°ã€Hartigan-Wong ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’å®Ÿè£…ã§ãã¾ã™ã€‚

äºŒä¹—ãƒ¦ãƒ¼ã‚¯ãƒªãƒƒãƒ‰è·é›¢ã®å ´åˆã«å¼ (2) ãŒå¼ (7) ã®ã‚ˆã†ã«å¤‰å½¢ã•ã‚Œã‚‹ã¨ã„ã†ã“ã¨ãŒã€ãã‚Œãžã‚Œã®å¼ã‚’è¦‹æ¯”ã¹ãŸã ã‘ã§ã¯ç§ã«ã¯ç†è§£ã§ãã¾ã›ã‚“ã§ã—ãŸã€‚ãã“ã§ã€å®Ÿéš›ã«å¼å¤‰å½¢ã‚’è¡Œã£ã¦ã€ã“ã®ã“ã¨ã‚’ç¢ºèªã—ã¦ã¿ã¾ã™ã€‚

ç‚¹ $x \notin C$ ã‚’ã‚¯ãƒ©ã‚¹ã‚¿ $C$ ã«è¿½åŠ ã—ãŸã¨ãã®é‡ååŒ–èª¤å·®ã®å¢—åˆ†ã¯ã€è«–æ–‡ã®å¼ (2) ã®ã¨ãŠã‚Šã€æ¬¡å¼ã§è¡¨ã›ã¾ã™ã€‚ãŸã ã—ã€å°æ–‡å—ã® $c$ ã¯ $x$ ã‚’è¿½åŠ ã™ã‚‹å‰ã®ã‚»ãƒ³ãƒˆãƒã‚¤ãƒ‰ã€ $c^+$ ã¯ $x$ ã‚’è¿½åŠ ã—ãŸå¾Œã®ã‚»ãƒ³ãƒˆãƒã‚¤ãƒ‰ã¨ã—ã¾ã™ã€‚æ‹¬å¼§å†…ã®äºŒé …ãŒè¿½åŠ å¾Œã®é‡ååŒ–èª¤å·®ã€æœ€å¾Œã®é …ãŒè¿½åŠ å‰ã®é‡ååŒ–èª¤å·®ã«ç›¸å½“ã—ã¾ã™ã€‚

${\displaystyle {\Delta}D(x, C) = (\|x - c^+\|^2 + \sum_{x' \in C}\|x' - c^+\|^2) - \sum_{x' \in C}\|x' - c\|^2 }$

ã“ã®å¼ã‹ã‚‰ $x'$ ã¨ $c^+$ ã‚’æ¶ˆåŽ»ã—ã¦ $x$ ã¨ $c$ ã®ã¿ã§è¡¨ã—ã€ãã‚ŒãŒè«–æ–‡ã® (7) å¼ã«ãªã£ã¦ã„ã‚‹ã“ã¨ã‚’ç¤ºã—ã¾ã™ã€‚

ã¾ãšã€ $c^+$ ã¯ $x$ ã¨ $c$ ã‚’ç”¨ã„ã¦ä»¥ä¸‹ã®ã‚ˆã†ã«è¡¨ã›ã¾ã™ã€‚

${\displaystyle \begin{eqnarray} c^+ &=& \frac{1}{|C^+|} (\sum_{x' \in C} x' + x) \\ &=& \frac{1}{|C|+1} \sum_{x' \in C} x' + \frac{1}{|C|+1} x \\ &=& \frac{|C|}{|C|+1} c + \frac{1}{|C|+1} x \end{eqnarray} }$

ã“ã‚Œã‚’ç”¨ã„ã‚‹ã¨ã€ ${\Delta}D(x, C)$ ã®ç¬¬ä¸€é …ã¯ä»¥ä¸‹ã®ã‚ˆã†ã«å¤‰å½¢ã§ãã¾ã™ã€‚

${\displaystyle \begin{eqnarray} \|x - c^+\|^2 &=& \|x - (\frac{|C|}{|C|+1} c + \frac{1}{|C|+1} x)\|^2 \\ &=& \|\frac{|C|}{|C|+1}(x - c)\|^2 \\ &=& (\frac{|C|}{|C|+1})^2 \|x - c\|^2 \end{eqnarray} }$

æ®‹ã‚Šã®äºŒé …ã¯ã€æ¬¡ã®å½¢ã«ã¾ã¨ã‚ã¦è€ƒãˆã¾ã™ã€‚

${\displaystyle \sum_{x' \in C}(\|x' - c^+\|^2 - \|x' - c\|^2) }$

ç·å’Œè¨˜å·ã®å†…å´ã¯æ¬¡ã®ã‚ˆã†ã«è¨ˆç®—ã§ãã¾ã™ã€‚

${\displaystyle \begin{eqnarray} \|x' - c^+\|^2 - \|x' - c\|^2 &=& (\|x'\|^2 - 2 x' \cdot c^+ + \|c^+\|^2) - (\|x'\|^2 - 2 x' \cdot c + \|c\|^2) \\ &=& \|c^+\|^2 - \|c\|^2 - 2 x' \cdot (c^+ - c) \\ &=& (c^+ + c) \cdot (c^+ - c) - 2 x' \cdot (c^+ - c) \\ &=& (c^+ + c - 2 x') \cdot (c^+ - c) \end{eqnarray} }$

ã—ãŸãŒã£ã¦ã€

${\displaystyle \begin{eqnarray} \sum_{x' \in C}(\|x' - c^+\|^2 - \|x' - c\|^2) &=& \sum_{x' \in C}\{(c^+ + c - 2 x') \cdot (c^+ - c)\} \\ &=& (c^+ - c) \cdot \sum_{x' \in C}(c^+ + c - 2 x') \\ &=& (c^+ - c) \cdot (|C| \; c^+ + |C| \; c - 2 \sum_{x' \in C} x') \\ &=& |C| \; (c^+ - c) \cdot (c^+ - c) \\ &=& |C| \; \|c^+ - c\|^2 \end{eqnarray} }$

ã¨ãªã‚Šã¾ã™ã€‚ã“ã“ã§ã€ $c^+$ ãŒ

${\displaystyle c^+ = \frac{|C|}{|C|+1} c + \frac{1}{|C|+1} x }$

ã ã£ãŸã“ã¨ã‹ã‚‰ã€ä¸Šå¼ã¯ã•ã‚‰ã«

${\displaystyle \begin{eqnarray} |C| \; \|c^+ - c\|^2 &=& |C| \; \|(\frac{|C|}{|C|+1} c + \frac{1}{|C|+1} x) - c\|^2 \\ &=& |C| \; \|\frac{1}{|C|+1}(x - c)\|^2 \\ &=& \frac{|C|}{(|C|+1)^2} \|x - c\|^2 \end{eqnarray} }$

ã¨ãªã‚Šã¾ã™ã€‚ã“ã‚Œã§ ${\Delta}D(x, C)$ ã®å„é …ã‚’ $x$ ã¨ $c$ ã®ã¿ã§è¡¨ã™ã“ã¨ãŒã§ãã¾ã—ãŸã€‚

ç¬¬ä¸€é …ã¨åˆã‚ã›ã¦å…¨ä½“ã‚’ã¾ã¨ã‚ã‚‹ã¨ã€æœ€çµ‚çš„ã«æ¬¡ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

${\displaystyle \begin{eqnarray} {\Delta}D(x, C) &=& (\frac{|C|}{|C|+1})^2 \|x - c\|^2 + \frac{|C|}{(|C|+1)^2} \|x - c\|^2 \\ &=& \frac{|C|}{|C|+1} \|x - c\|^2 \end{eqnarray} }$

è«–æ–‡ã®å¼ (7) ã¨æ¯”è¼ƒã—ã¦ã¿ã‚‹ã¨ã€ $(0.5 / n)$ ã®æœ‰ç„¡ãŒç•°ãªã‚Šã¾ã™ãŒ*6ã€ã“ã‚Œã¯ k-means ã®å‡¦ç†ã§ã¯å®šæ•°é …ã«ãªã‚‹ãŸã‚ç„¡è¦–ã§ãã¾ã™ã€‚ä»¥ä¸Šã®è¨ˆç®—ã«ã‚ˆã‚Šã€å¼ (7) ã‚’æœ€å°åŒ–ã™ã‚‹å‰²ã‚Šå½“ã¦ãŒã€é‡ååŒ–èª¤å·®ã®å¢—åˆ†ã‚’æœ€å°ã«ã™ã‚‹å‰²ã‚Šå½“ã¦ã‚’æ„å‘³ã—ã¦ã„ã‚‹ã“ã¨ã‚’ç¤ºã›ã¾ã—ãŸã€‚

*1:J. A. Hartigan and M. A. Wong. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). Vol. 28, No. 1 (1979), pp. 100-108.

*2:è«–æ–‡ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã¯æœ‰æ–™ ($29.00) ã§ã™ã€‚ã‚¢ã‚«ã‚¦ãƒ³ãƒˆã‚’ä½œæˆã™ã‚Œã°ã€ã‚¦ã‚§ãƒ–ãƒ–ãƒ©ã‚¦ã‚¶ä¸Šã§ã¯ç„¡æ–™ã§èªã‚ã¾ã™ã€‚

*3:Matus Telgarsky and Andrea Vattani. Hartigan's Method: k-means Clustering without Voronoi. In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. 2010.

*4:Noam Slonim, Ehud Aharoni, and Koby Crammer. 2013. Hartigan's K-means versus Lloyd's K-means: is it time for a change?. In Proceedings of the Twenty-Third international joint conference on Artificial Intelligence (IJCAI '13), Francesca Rossi (Ed.). AAAI Press 1677-1684.

*5:ã¡ãªã¿ã«ã€ã“ã® Theorem 2.2 ã¯ "a (possibly strict) subset" ã¨ã„ã†è¡¨ç¾ã«ãªã£ã¦ã„ã¾ã™ãŒã€åŒè«–æ–‡ã® introduction ã§ã¯ "a strict subset" ã¨æ›¸ã‹ã‚Œã¦ã„ã¦ã€ã‚„ã‚„ãƒ‹ãƒ¥ã‚¢ãƒ³ã‚¹ãŒç•°ãªã‚‹ã‚ˆã†ã«æ„Ÿã˜ã¾ã™ã€‚