natural language processing blog ã«Non-parametric as memorizing, in exactly the wrong way?ã¨ã„ã†ãƒã‚¹ãƒˆãŒã‚ã£ãŸã€‚è¨€èªžãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã¯ã“ã“æ•°å¹´ã§ã ã„ã¶ç ”ç©¶ãŒé€²å±•ã—ãŸã¨ã“ã‚ã§ã€ãƒ‡ã‚£ãƒªã‚¯ãƒ¬éŽç¨‹ã¨ã‹ãªã‚“ã ã¨ã‹ã€æ•°ç†çš„ã«ç²¾ç·»ãªãƒ¢ãƒ‡ãƒ«ãŒ(è¨ˆç®—æ©Ÿã®é«˜åº¦åŒ–ã‚‚ç›¸ã¾ã£ã¦)ç™»å ´ã—ã¦ãã¦ã€ã„ã‚ã„ã‚åˆ†ã‹ã£ã¦ãã¦ã„ã‚‹ãƒ›ãƒƒãƒˆãªåˆ†é‡Žã§ã‚ã‚‹ã€‚

æœ€è¿‘ PPM ã«ã¤ã„ã¦èª¿ã¹ãŸãŒã€daiti-m ã•ã‚“ã®「PPM, 言語モデル, Burrows-Wheeler Transform」ã¨ã‚ã¨「PPMと言語モデル (2)」ã„ã†ãƒã‚¹ãƒˆã‚’æ”¹ã‚ã¦èªã‚“ã§ã¿ã¦ã€ã‚ˆã†ã‚„ãåˆ†ã‹ã£ã¦ããŸæ°—ãŒã™ã‚‹ã€‚

Google æ—¥æœ¬èªž N ã‚°ãƒ©ãƒ ã¿ãŸãå·¨å¤§ãªãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã£ã¦ã„ã‚‹ã¨ã€ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ãªã«ãã‚Œï¼Ÿã€€ã¨è¨€ã£ã¦ã„ã¦ã‚‚ã„ã„ãã‚‰ã„(æ©Ÿæ¢°ç¿»è¨³ã§ã‚‚ Google 1T gram ã‚’ç”¨ã„ãŸç ”ç©¶ã§ã€ãã‚Œã ã‘ãƒ‡ãƒ¼ã‚¿ãŒã‚ã‚‹ã¨ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ã¯å¿…è¦ãªã„ã€ã¨ã„ã†ã‚ˆã†ãªè©±ãŒã‚ã£ãŸã¨æ€ã†)ãªã®ã ãŒã€ç¾å®Ÿçš„ã«ã¯ãã‚“ãªå¤§é‡ã®ãƒ‡ãƒ¼ã‚¿ãŒæ‰‹ã«å…¥ã‚‰ãªã‹ã£ãŸã‚Šã€ã‚‚ã—ãã¯æ‰‹ã«å…¥ã£ãŸã¨ã—ã¦ã‚‚ CPU ã‚„ãƒ¡ãƒ¢ãƒªã‚„ãƒ‡ã‚£ã‚¹ã‚¯ã®åˆ¶ç´„ã§å…¨éƒ¨ä½¿ãˆãªã‹ã£ãŸã‚Šã¨ã€ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ã¯å¿…é ˆã®å‡¦ç†ãªã‚“ã ãªãã€ã¨(å½“ãŸã‚Šå‰ã ãŒâ€¦â€¦)ã€‚

ã¡ãªã¿ã«ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ã¨ã¯ã€ãƒ‡ãƒ¼ã‚¿ã®ä¸ã«å‡ºç¾ã—ãŸã‚¤ãƒ™ãƒ³ãƒˆã«ç¢ºçŽ‡ã‚’å‰²ã‚ŠæŒ¯ã‚‹ã¨ãã€å‡ºç¾ã—ãŸã‚‚ã®ã ã‘ã«ç¢ºçŽ‡ã‚’æŒ¯ã£ã¦ã—ã¾ã†ã¨ã€æœªçŸ¥ã®ã‚¤ãƒ™ãƒ³ãƒˆã«å¯¾ã—ã¦ç¢ºçŽ‡ã‚’è¨ˆç®—ã™ã‚‹ã“ã¨ãŒã§ããªã„(ã‹ã‘ç®—ã ã¨ã©ã“ã‹ãŒ0ã«ãªã‚‹ã¨å…¨ä½“ãŒ0ã«ãªã‚‹ã®ã§ã€ã‚¹ãƒ ãƒ¼ã‚¸ãƒ³ã‚°ãªã—ã§1ç®‡æ‰€æœªçŸ¥èªžãŒã‚ã‚‹ã¨å…¨ä½“ã®æ–‡ãŒè§£æžã§ããªããªã‚‹)ã¨ã„ã†å•é¡Œ(ãƒ‡ãƒ¼ã‚¿ã‚¹ãƒ‘ãƒ¼ã‚¹ãƒã‚¹)ã¸ã®å¯¾å‡¦ã¨ã—ã¦ã€æœªçŸ¥ã®ã‚¤ãƒ™ãƒ³ãƒˆã«ã‚‚ç¢ºçŽ‡ã‚’å‰²ã‚ŠæŒ¯ã‚Šã¾ã—ã‚‡ã†(ãã®ã¶ã‚“æ—¢çŸ¥ã®ã‚¤ãƒ™ãƒ³ãƒˆã‹ã‚‰ç¢ºçŽ‡ã‚’å‰²ã‚Šå¼•ã)ã€ã¨ã„ã†æ‰‹æ³•ã®ã“ã¨ã§ã‚ã‚‹ã€‚

ä¼¼ãŸæ¦‚å¿µã¨ã—ã¦ãƒãƒƒã‚¯ã‚ªãƒ•ã¨ã„ã†ã‚‚ã®ãŒã‚ã£ã¦ã€ã“ã¡ã‚‰ã¯ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®ãƒ¢ãƒ‡ãƒ«ã§è¦‹ã¤ã‹ã‚‰ãªã„ãƒ‡ãƒ¼ã‚¿ãŒå…¥ã£ã¦ããŸã¨ãã€ã‚ˆã‚ŠåŸºç¤Žçš„ãªãƒ¢ãƒ‡ãƒ«ã«ã‚¹ã‚¤ãƒƒãƒã™ã‚‹ã“ã¨ã§è§£æžã—ã¾ã—ã‚‡ã†ã€ã¨ã„ã†æ‰‹æ³•ã€‚ãŸã¨ãˆã°ç›´å‰ã®å˜èªžã‹ã‚‰æ¬¡ã®å˜èªžãŒäºˆæ¸¬ã§ãã‚‹ã¨ã„ã†ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã£ãŸ(å˜èªž 2-gram ãƒ¢ãƒ‡ãƒ«)ã¨ã—ã¦ã€ã“ã‚Œã¾ã§è¦‹ãŸã“ã¨ãªã„2å˜èªžã®é€£éŽ–ãŒã‚ã£ã¦ã‚‚ã€1å˜èªžã«åˆ†è§£ã—ã¦è€ƒãˆãŸã‚‰è¦‹ãŸã“ã¨ãŒã‚ã‚‹å˜èªžã ã£ãŸå ´åˆã€æ–‡è„ˆã«ä¾å˜ã›ãšãã®å˜èªžãŒå‡ºç¾ã™ã‚‹ç¢ºçŽ‡ã‚’è¨ˆç®—ã™ã‚‹ãƒ¢ãƒ‡ãƒ«(å˜èªž 1-gram ãƒ¢ãƒ‡ãƒ«)ã§äºˆæ¸¬ã™ã‚‹ã€ã¨ã„ã†ã‚‚ã®ã€‚

ãã‚Œã§å…ƒã®è©±ã«æˆ»ã‚‹ã¨ã€å†’é ã®ãƒã‚¹ãƒˆã¯äººé–“ãŒãŸã¨ãˆã°è‹±èªžã®éŽåŽ»å½¢ã‚’è¦šãˆã‚‹ã¨ãã€ã€Œ-ed ã‚’ã¤ã‘ã‚Œã°éŽåŽ»å½¢ã€ã€Œãã‚Œä»¥å¤– went ã¨ã‹ gave ã¨ã‹ã¯ä¾‹å¤–ã€ã¨ã„ã†ã‚ˆã†ã«ã€ãƒ«ãƒ¼ãƒ«ã¨ä¾‹å¤–ã§è¦šãˆã¦ã„ã‚‹ã®ã‹ã€ãã‚Œã¨ã‚‚ã€Œtalked, opened, ã¯éŽåŽ»å½¢ã€ã¨å…¨éƒ¨éŽåŽ»å½¢ã‚’ä¸¸è¦šãˆã™ã‚‹ã®ã‹ã€æœ€æ–°ã®æ©Ÿæ¢°å¦ç¿’çš„ãªæˆæžœã§ã¯å¾Œè€…ãŒæ”¯æŒã•ã‚Œã‚‹ãŒã€ã“ã‚Œã¯èªçŸ¥è¨€èªžå¦çš„ãªçŸ¥è¦‹ã«åã™ã‚‹ã®ã§ã¯ï¼Ÿã€€ã¨ã„ã†å•é¡Œæèµ·ã€‚ã—ã‹ã—ã©ã†ã‚„ã‚‰äººé–“ã‚‚ãƒ«ãƒ¼ãƒ«ã§è¦šãˆã¦ã„ã‚‹ã®ã§ã¯ãªãã€å…¨éƒ¨ä¸¸è¦šãˆã—ã¦ã„ã¦ã€çŸ¥ã‚‰ãªã„å˜èªžã«å‡ºä¼šã†ã¨ãƒ«ãƒ¼ãƒ«ã«ãƒãƒƒã‚¯ã‚ªãƒ•ã—ã¦ã„ã‚‹ã®ã§ã¯ãªã„ã‹ã€ã¨ã„ã†è©±ã€‚è¢«é¨“è€…ã‚’ä½¿ã£ãŸå®Ÿé¨“ã§ã¯(ç›´æ„Ÿçš„ã«ã¯å‰è€…ã‹ã‚‚ã—ã‚Œãªã„ãŒã€å®Ÿéš›ã¯)å¾Œè€…ã®ã‚ˆã†ã§ã‚ã‚‹ã€ã¨ã„ã†æ„Ÿã˜(ã§ã‚‚ã¡ã‚ƒã‚“ã¨è©±ã‚’è¦šãˆã¦ã„ãªã„ã®ã§ç¢ºã‹ã‹ã©ã†ã‹åˆ†ã‹ã‚‰ãªã„ã€ã¨ã®ã‚³ãƒ¡ãƒ³ãƒˆ)ã€‚

ç¢ºã‹ã«å®Ÿéš›ã‚ˆãä½¿ã†ã‚‚ã®ã¯(ç°¡å˜ã«ã‚¢ã‚¯ã‚»ã‚¹ã§ãã‚‹ã‚ˆã†ã«)å˜èªžã§è¦šãˆã¦ãŠã„ã¦ã€ã‚ã¾ã‚Šä½¿ã‚ãªã„ã‚‚ã®ã¯(ã¡ã‚‡ã£ã¨å‡¦ç†ã«æ™‚é–“ã¯ã‹ã‹ã‚‹ãŒ)ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®ãƒ«ãƒ¼ãƒ«ã§å‡¦ç†ã™ã‚‹ã€ã¨ã„ã†ã®ã¯åˆç†çš„ãªæ°—ãŒã™ã‚‹ã€‚ã‚ã¨ã¯æœ€åˆã®ã€Œã‚ˆãä½¿ã†å˜èªžãƒªã‚¹ãƒˆã€ã‚’ã©ã†æ§‹ç¯‰ã™ã‚‹ã‹ã€ã ãŒã€äººé–“ã¯è‡ªå‹•ã§ã“ã®ã‚ãŸã‚Šã‚„ã‚‹ã‚“ã ã‚ˆãªãã€‚å®Ÿã«ã™ã”ã„ã€‚