è«–æ–‡æ„Ÿæƒ³: "Exploring Topic Coherence over many models and many topics"(EMNLP-CoNLL 2012)

"Exploring Topic Coherence over many models and many topics"

æ¦‚è¦

ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«[LSA(SVDã«ã‚ˆã‚‹), LSA(NMFã«ã‚ˆã‚‹), LDA]ã®æ¯”è¼ƒã‚’è¡Œã†ã€‚
å‡ºåŠ›ã—ãŸãƒˆãƒ”ãƒƒã‚¯ã®ã‚³ãƒ’ãƒ¼ãƒ¬ãƒ³ã‚¹(ä¸€è²«æ€§)ã‚’è¿‘å¹´ææ¡ˆã•ã‚ŒãŸæ‰‹æ³•(UCI measure, UMass measure)ã®å¹³å‡ã‚„ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã‚’ç”¨ã„ã‚‹ã“ã¨ã§ãƒ¢ãƒ‡ãƒ«å…¨ä½“ã«é©ç”¨ã™ã‚‹ã€‚
ã¾ãŸäººé–“ãŒå˜èªžãƒšã‚¢ã«ã¤ã‘ãŸé¡žä¼¼åº¦ã¨ãƒˆãƒ”ãƒƒã‚¯ç©ºé–“ã§ã®ãƒ™ã‚¯ãƒˆãƒ«é–“ã®é¡žä¼¼åº¦ã®ç›¸é–¢ä¿‚æ•°ã‚„ã€æ–‡æ›¸åˆ†é¡žã®ã‚¿ã‚¹ã‚¯ã§ã‚‚è©•ä¾¡ã—ãŸã€‚

å…ˆè¡Œç ”ç©¶ã«ã‚ˆã‚‹ã¨LSA(NMFã«ã‚ˆã‚‹)ã¯PLSAã¨é¡žä¼¼æ€§ãŒã‚ã‚‹ã‚‰ã—ã„ã€‚

ãƒˆãƒ”ãƒƒã‚¯ã®ã‚³ãƒ’ãƒ¼ãƒ¬ãƒ³ã‚¹ã‚’æ¸¬ã‚‹å°ºåº¦

ä»¥ä¸‹ã®ã‚ˆã†ã«ãƒˆãƒ”ãƒƒã‚¯ã«å«ã¾ã‚Œã‚‹å˜èªž $v_i,v_j$ é–“ã®ã‚¹ã‚³ã‚¢ã®ç·å’Œã‚’æ±‚ã‚ã‚‹(ãƒˆãƒ”ãƒƒã‚¯ã”ã¨ã«å®šç¾©ã•ã‚Œã‚‹)ã€‚
$coherence(V)=\sum_{(v_i, v_j)\in V}score(v_i, v_j, \epsilon)$
$\epsilon$ ã¯smoothing factor

UCI measure("Evaluating topic models for digital libraries", Newman et al., 2010)

ãƒˆãƒ”ãƒƒã‚¯å†…ã®å˜èªžé–“ã®PMI(pointwise mutual information)ã‚’å…¨ã¦ã®å˜èªžã«å¯¾ã—ã¦è¶³ã—åˆã‚ã›ã‚‹ã€‚
$score(v_i, v_j, \epsilon) = \log \frac{p(v_i, v_j) +\epsilon}{p(v_j)p(v_j)}$
PMIã®å…ƒã¨ãªã‚‹ç¢ºçŽ‡ã¯å¤–éƒ¨ã®ã‚³ãƒ¼ãƒ‘ã‚¹ã§è¨ˆç®—ã™ã‚‹ã€‚

UMass measure("Optimizing semantic coherence in topic models", Mimno et al., 2011)

$score(v_i, v_j, \epsilon) = \log \frac{D(v_i, v_j) +\epsilon}{D(v_j)}$
$D(x)$ ã¯ $x$ ãŒç™»å ´ã™ã‚‹æ–‡æ›¸ã®æ•°ã€‚
ã“ã¡ã‚‰ã¯ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«ã‚’é©ç”¨ã™ã‚‹ã‚³ãƒ¼ãƒ‘ã‚¹è‡ªä½“ã§è¨ˆç®—ã—ãŸå€¤ã‚’ä½¿ã†ã€‚

çµæžœ

ã‚³ãƒ’ãƒ¼ãƒ¬ãƒ³ã‚¹ã®å°ºåº¦ã§ã¯LDA>LSA(NMF)>LSA(SVD)ã§ã‚ã£ãŸã€‚
ã—ã‹ã—é¡žä¼¼åº¦ã‚„æ–‡æ›¸åˆ†é¡žã®ã‚¿ã‚¹ã‚¯ã§ã¯LSA(SVD)ãŒæœ€ã‚‚è‰¯ã„æ€§èƒ½ã‚’ç¤ºã—ãŸã€‚
ã“ã®ã“ã¨ã‹ã‚‰LDAã¯äººé–“ãŒç›®ã§è¦‹ã¦ã‚ã‹ã‚Šã‚„ã™ã„ãƒˆãƒ”ãƒƒã‚¯ã‚’ç”Ÿæˆã—ã¦ã„ã‚‹ãŒã€ç°¡æ½”ãªè¡¨ç¾ã¨ã—ã¦ã¯LSA(SVD)ã®ã»ã†ãŒã†ã¾ãã„ã£ã¦ã„ã‚‹ã¨è€ƒãˆã‚‰ã‚Œã‚‹ã€‚

UCI measure, UMass measureã¯LDAã«å¯¾ã—ã¦ææ¡ˆã•ã‚Œã¦ã„ãŸã‚‚ã®ã§ã‚ã‚‹ã€‚
$\epsilon=1$ ãŒå…ƒè«–æ–‡ã§ã¯ä½¿ã‚ã‚Œã¦ã„ãŸãŒLSAã«å¯¾ã—ã¦ã¯ç•°ãªã£ãŸã‚ˆã‚Šå°ã•ã„smoothing factor(æœ¬è«–æ–‡ã§ã¯ $\epsilon=10^{-12}$ )ãŒé©åˆ‡ã ã£ãŸã€‚

æ„Ÿæƒ³

LSAã¯LDAã«æ¯”ã¹ã¦å¤ã„æ‰‹æ³•ã§ã‚ã‚Šã€è¿‘å¹´ã®è«–æ–‡ã§ã‚‚ã‚ã¾ã‚Šè¦‹ã‹ã‘ãªã„ã®ã§LDAã®ã»ã†ãŒLSAã‚ˆã‚Šã‚‚ã‚ˆã„ã¨æ€ã£ã¦ã„ãŸãŒã€å¿…ãšã—ã‚‚ãã†ã§ãªã„ã¨ã„ã†ã“ã¨ãŒã‚ã‹ã£ãŸã€‚
LSA(SVD)ã®ã»ã†ãŒéžè² åˆ¶ç´„ãŒãªã„ã‹ã‚‰LSA(NMF)ã‚ˆã‚Šã‚‚ç²¾åº¦çš„ã«ã†ã¾ãã„ããã†ãªã®ã¯ç›´æ„Ÿçš„ã«ã‚ã‹ã‚‰ãªã„ã§ã‚‚ãªã„ãŒã€LDAãŒLSAã«è² ã‘ã‚‹ç†ç”±ã¯ã‚ã¾ã‚Šã‚ˆãã‚ã‹ã‚‰ãªã„â€¦â€¦ã€‚

ãƒˆãƒ”ãƒƒã‚¯ãƒ¢ãƒ‡ãƒ«ã®è©•ä¾¡æŒ‡æ¨™ã¨ã—ã¦perplexityã‚„å¿œç”¨ã§ã¯ãªãã€ãƒˆãƒ”ãƒƒã‚¯ã®ã‚³ãƒ’ãƒ¼ãƒ¬ãƒ³ã‚¹ã‚’è©•ä¾¡ã™ã‚‹ã¨ã„ã†è¦–ç‚¹ãŒã‚ã‚‹ã“ã¨ã‚’åˆã‚ã¦çŸ¥ã‚Šã¾ã—ãŸã€‚