ã¾ã¨ã‚‚ãªç°¡ä½“å—ãƒ»ç¹ä½“å—å¤‰æ›

ã¾ã¨ã‚‚ãªç°¡ä½“å—ãƒ»ç¹ä½“å—å¤‰æ›ï¼ˆä»¥ä¸‹ã€ç°¡ç¹å¤‰æ›ï¼‰ã‚’ä½œã‚Šã¾ã—ãŸã€‚*1

https://jfconv.netlify.app/

ãªãœã€ ã¾ã¨ã‚‚ã¨è¨€ã†ã®ã‹ï¼Ÿ

ãã‚Œã¯ã€ç°¡ç¹å¤‰æ›ã¨ã„ã†ã®ã¯ä¸€å¯¾å¤šå¤‰æ›ã§ã‚ã£ã¦ã€ãã‚Œã‚’æ£ã—ãã§ãã¦ã„ãªã„ï¼ˆã—ã‚ˆã†ã¨ã‚‚ã—ã¦ã„ãªã„ï¼‰å¤‰æ›ã¨ã„ã†ã®ã¯ã¾ã¨ã‚‚ã§ã¯ãªã„ã‹ã‚‰ã§ã™ã€‚

ã¾ã¨ã‚‚ã§ãªã„ç°¡ç¹å¤‰æ›

ä¾‹ãˆã°ã€æ—¥æœ¬èªžã«ã‚‚ã‚ã‚‹å˜èªžã§ä¾‹ã‚’æŒ™ã’ã‚‹ã¨ã€ã€Œä¹¾ç‡¥ã€ã€Œå¹¹éƒ¨ã€ã€Œå¹²æ¶‰ã€ã¨ã„ã†ã‚‚ã®ãŒã‚ã‚Šã¾ã™ã€‚

ç°¡ä½“å—ã§ã¯ã€Œä¹¾ã€ã€Œå¹¹ã€ã¯ã€Œå¹²ã€ã«ãªã‚‹ã®ã§ã€ã“ã‚Œã‚‰ã¯ã€Œå¹²ç‡¥ã€ã€Œå¹²éƒ¨ã€ã€Œå¹²æ¶‰ã€ã¨æ›¸ã‹ã‚Œã¾ã™ã€‚

ã“ã‚Œã‚‰ã‚’ç¹ä½“å—ã«å¤‰æ›ã™ã‚‹ã¨ã€ã€Œä¹¾ç‡¥ã€ã€Œå¹¹éƒ¨ã€ã€Œå¹²æ¶‰ã€ã«æˆ»ã£ã¦ã»ã—ã„ã¨ã“ã‚ã§ã™ã€‚

ãã‚ŒãŒã€ã€Œç°¡ä½“å— ç¹ä½“å— å¤‰æ›ã€ã¨æ¤œç´¢ã—ã¦ä¸Šä½ã«å‡ºã¦ãã‚‹ã‚µã‚¤ãƒˆã§ã“ã‚Œã‚‰ã‚’å¤‰æ›ã—ã¦ã‚‚ã€ã ã„ãŸã„ã†ã¾ãã„ãã¾ã›ã‚“ã€‚

ã‚ã‚‹ã‚µã‚¤ãƒˆã§ã¯ã€ã€Œå¹¹ç‡¥ã€ã€Œå¹¹éƒ¨ã€ã€Œå¹¹æ¶‰ã€ã¨ãªã‚Šã¾ã™ã€‚ã€Œå¹²â†’å¹¹ã€ã¨ã„ã†å˜ç´”ãªç½®ãæ›ãˆã—ã‹ã—ã¦ã„ãªã„ã¨ã„ã†ã“ã¨ã§ã™ã€‚

ã¾ãŸã€åˆ¥ã®ã‚µã‚¤ãƒˆã§ã¯ã€Œä¹¾/å¹¹/æ¦¦ç‡¥ã€ã€Œä¹¾/å¹¹/æ¦¦éƒ¨ã€ã€Œä¹¾/å¹¹/æ¦¦æ¶‰ã€ã¨ãªã‚Šã¾ã™ã€‚ç°¡ä½“å—ã«å¯¾å¿œã™ã‚‹ç¹ä½“å—ãŒè¤‡æ•°ã‚ã‚Šã†ã‚‹ã¨ã„ã†ã“ã¨ã¾ã§ã¯èªè˜ã—ã¤ã¤ã€æ£ã—ã„ã‚‚ã®ã‚’é¸ã¶æŠ€è¡“ã¯ãªã„ã¨ã„ã†ã“ã¨ã§ã™ã€‚*2

ã‚µã‚¤ãƒˆã«ã‚ˆã£ã¦ã¯ã€ã€Œä¹¾ç‡¥ã€ã€Œå¹¹éƒ¨ã€ã€Œå¹²æ¶‰ã€ã¨æ£ã—ãå¤‰æ›ã•ã‚Œã¾ã™ã€‚ãŸã ã—ã€ã“ã®ã‚ˆã†ãªã‚µã‚¤ãƒˆã§ã‚‚ã€ä¾‹ãˆã°ä¸å›½èªžã®ã€Œèƒ½ï¼ˆã§ãã‚‹ï¼‰ã€ã‚’å‰ã«ã¤ã‘ã¦å¤‰æ›ã™ã‚‹ã¨ã€ã€Œèƒ½å¹²ç‡¥ã€ãŒã€Œèƒ½å¹¹ç‡¥ã€ã«ãªã£ã¦ã—ã¾ã„ã¾ã™ã€‚ã“ã‚Œã¯ã€ä¸å›½èªžã«ã€Œèƒ½å¹¹ã€ã¨ã„ã†å˜èªžãŒã‚ã£ã¦ã€ãã‚ŒãŒå…ˆã«ãƒžãƒƒãƒã—ã¦ã—ã¾ã£ã¦ã„ã‚‹ã‹ã‚‰ã§ã™ã€‚

ã“ã†ã„ã†èª¤å¤‰æ›ã«å¯¾å¿œã™ã‚‹ãŸã‚ã«ã€ ä¸å›½èªžã®Wikipediaã§ã¯2万行以上あるリストã‚’ãƒ¡ãƒ³ãƒ†ãƒŠãƒ³ã‚¹ã—ã¦ã„ã¾ã™ã€‚

ã€Œé¢åŒ…ã€ã¯ã€ŒéºµåŒ…ã€ã€ä¸€æ–¹ã§ã€Œé¢åŒ…æ‹¬ã€ãªã‚‰ã€Œé¢åŒ…æ‹¬ã€ãã®ã¾ã¾â€¦ã€‚

ã“ã‚“ãªãƒ«ãƒ¼ãƒ«ãŒæ•°é™ã‚Šãªãã‚ã‚‹ã‚ã‘ã§ã™ã€‚

ã§ãã‚Œã°ã€ã“ã‚“ãªã‚‚ã®ã‚’æ‰‹ã§è§¦ã£ãŸã‚Šã¯ã—ãŸããªã„ã¨ã“ã‚ã§ã™ã€‚

ã¾ã¨ã‚‚ãªç°¡ç¹å¤‰æ›

ã“ã“ã§é–‹ç™ºã—ãŸã®ãŒã€æœ€åˆã«ç´¹ä»‹ã—ãŸ簡繁変換ã§ã™ã€‚

ã“ã®ãƒšãƒ¼ã‚¸ã§ã¯ã€ä¾‹ãˆã°ã€Œèƒ½å¹²ç‡¥ã€ã‚‚ã€Œèƒ½ä¹¾ç‡¥ã€ã¨æ£ã—ãå¤‰æ›ã§ãã¾ã™ã€‚

æŠ€è¡“

ã“ã®ç°¡ç¹å¤‰æ›ã¯ã€N-gramã‚’ãƒ™ãƒ¼ã‚¹ã«ã—ã¦ã„ã¾ã™ã€‚

N-gramè‡ªä½“ã¯ä¸€èˆ¬çš„ãªæŠ€è¡“ãªã®ã§ã€ã“ã“ã§ã®èª¬æ˜Žã¯çœç•¥ã—ã¾ã™ã€‚

å¤‰æ›éƒ¨åˆ†ã¯ã€ãšã£ã¨æ˜”ã«è¨˜äº‹ã‚’æ›¸ã„ãŸ可変次数N-gramデコードã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚

ã‚½ãƒ¼ã‚¹ã¯https://github.com/hiroshi-manabe/jfconv-scriptsã§å…¬é–‹ã—ã¦ã„ã¾ã™ã€‚

デコード部分ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ã€KenLMã¨ã„ã†N-gramãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®çŠ¶æ…‹ï¼ˆStateï¼‰ã‚’ä½¿ã†ã“ã¨ã§ã‹ãªã‚Šã‚·ãƒ³ãƒ—ãƒ«ã«ãªã£ã¦ã„ã¾ã™ã€‚

å‡¦ç†æ™‚ã«ã¯ã€ä¾‹ãˆã°ã€Œå¹²é¢ã€ã¨ã„ã†å…¥åŠ›ã§ã‚ã‚Œã°ãã‚Œã‚’ã€Œ[ä¹¾|å¹²|å¹¹|æ¦¦] [é¢|éºµ]ã€ã¨ã„ã†å½¢ã«å¤‰æ›ã—ã€ãã‚Œã‚’N-gramãƒ‡ã‚³ãƒ¼ãƒ‰ãŒå—ã‘å–ã£ã¦ã€æœ€ã‚‚ãã‚Œã‚‰ã—ã„ä¸¦ã³ã‚’é¸ã¶ã€ã¨ã„ã†å½¢ã«ãªã£ã¦ã„ã¾ã™ã€‚

ãƒ‡ãƒ¼ã‚¿

ç§ãŒä½¿ã£ãŸã®ã¯ã€ç°¡ä½“å—ã¯https://github.com/brightmart/nlp_chinese_corpusã§ç´¹ä»‹ã•ã‚Œã¦ã„ã‚‹ç™¾ç§‘å•ç”ï¼ˆQ&Aã‚µã‚¤ãƒˆï¼‰ã€ç¹ä½“å—ã¯å°æ¹¾ã®ã„ã‚ã„ã‚ãªå°èª¬ã‚µã‚¤ãƒˆã‹ã‚‰ã‚¯ãƒãƒ¼ãƒªãƒ³ã‚°ã—ãŸã‚‚ã®ã§ã™ã€‚

èƒŒæ™¯

ã€Œãªãœã¾ã¨ã‚‚ãªç°¡ç¹å¤‰æ›ãŒå°‘ãªã„ã®ã‹ã€ã¨ã„ã†ç–‘å•ã‚’æŒã¤äººãŒã„ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚

ã“ã‚Œã¯ã€ç°¡ç¹å¤‰æ›ã¨ã„ã†ã®ãŒã€ã€Œã‚ã¾ã‚Šå¿…è¦ãŒãªã„ã‚¿ã‚¹ã‚¯ã€ã ã‹ã‚‰ã§ã™ã€‚

ç°¡ä½“å—åœã®äººã¯ã ã„ãŸã„ç¹ä½“å—ãŒèªã‚ã¾ã™ã—ã€ãã®é€†ã‚‚ã¾ãŸãã†ã§ã™ã€‚

ã‚‚ã¡ã‚ã‚“ã€è‡ªåˆ†ã®æ…£ã‚ŒãŸæ–‡å—ã®ã»ã†ãŒèªã¿ã‚„ã™ã„ã®ã§ç°¡ç¹å¤‰æ›ã¨ã„ã†ã‚‚ã®ãŒã‚ã‚‹ã®ã§ã™ãŒã€äººé–“ã®è„³ã¯é©å¿œèƒ½åŠ›ãŒé«˜ã„ã®ã§ã€å¤šå°‘å¤‰æ›ãŒé–“é•ã£ã¦ã„ã¦ã‚‚è£œå®Œã—ã¦èªã‚€ã“ã¨ãŒã§ãã¾ã™ã€‚

ãã†ã„ã†æ„å‘³ã§ã¯ã€ç°¡ç¹å¤‰æ›ã¨ã„ã†ã®ã¯ã€ãƒ¡ã‚¸ãƒ£ãƒ¼ãªè‡ªç„¶è¨€èªžå‡¦ç†ã‚¿ã‚¹ã‚¯ï¼ˆç¿»è¨³ã€éŸ³å£°èªè˜ã€éŸ³å£°åˆæˆç‰ï¼‰ã¨é•ã£ã¦ã€çœŸé¢ç›®ã«ã‚„ã‚‹å‹•æ©Ÿã«ä¹ã—ã„ã‚¿ã‚¹ã‚¯ãªã®ã§ã™ã€‚

ãã†ã„ã†ã‚ã‘ã§ã€å¤§è³‡æœ¬ãŒçœŸé¢ç›®ã«å–ã‚Šçµ„ã‚€ã¨ã„ã†ã“ã¨ãŒãªã„ã®ã§ã€å€‹äººã§é ‘å¼µã‚Œã°æ¯”è¼ƒçš„ã„ã„ã‚‚ã®ãŒä½œã‚Œã‚‹ã¨ã„ã†ã“ã¨ã«ãªã‚Šã¾ã™ã€‚

ã¨ã„ã£ã¦ã‚‚ã€ã€Œã‚ã¾ã‚Šå¿…è¦ãŒãªã„ã‚¿ã‚¹ã‚¯ã€ã§ã‚ã‚‹ã“ã¨ã«å¤‰ã‚ã‚Šã¯ãªã„ã®ã§ã€è‡ªå·±æº€è¶³ã®ã‚ˆã†ãªã‚‚ã®ã§ã™ãŒã€‚

ã“ã®N-gramãƒ‡ã‚³ãƒ¼ãƒ‰ã¯ã¡ã‚‡ã£ã¨ã—ãŸNLPã‚¿ã‚¹ã‚¯ã‚’è§£ãã®ã«ä¾¿åˆ©ãªã®ã§ã€ä»–ã«ã‚‚ã„ãã¤ã‹ãƒ„ãƒ¼ãƒ«ã‚’ä½œã£ã¦ã¿ã‚‹äºˆå®šã§ã™ã€‚

*1:ç°¡ä½“å—ãƒ»ç¹ä½“å—å¤‰æ›ã§ã¯ã€ç”¨èªžã®è¨€ã„æ›ãˆã‚’ã™ã‚‹ã‚‚ã®ã‚‚ã‚ã‚Šã¾ã™ãŒã€ã“ã“ã§ã¯ãã‚Œã¯ã—ã¦ã„ã¾ã›ã‚“ã€‚

*2:ã€Œå¹²ã€ãŒç¹ä½“å—ã§ã‚‚ã€Œå¹²ã€ã®ã¾ã¾ã«ãªã‚‹ã“ã¨ã‚‚ã‚ã‚‹ã¨ã„ã†ã“ã¨ã‚‚è¦‹é€ƒã—ã¦ã„ã¾ã™ã€‚

ã¾ã¨ã‚‚ã§ãªã„ç°¡ç¹å¤‰æ›

ã¾ã¨ã‚‚ãªç°¡ç¹å¤‰æ›

æŠ€è¡“

ãƒ‡ãƒ¼ã‚¿

èƒŒæ™¯

ã¾ã¨ã‚‚ã§ãªã„ç°¡ç¹å¤‰æ›

ã¾ã¨ã‚‚ãªç°¡ç¹å¤‰æ›