ç ”ç©¶é–‹ç™ºéƒ¨ã®åŽŸå³¶ã§ã™ã€‚åŽ»å¹´ã‹ã‚‰ã¯ãƒ¬ã‚·ãƒ”ã‚µãƒ¼ãƒ“ã‚¹é–‹ç™ºéƒ¨ã‚‚å…¼å‹™ã—ã¦ã„ã¾ã™ã€‚ãã¡ã‚‰ã®è©±ï¼ˆæ¤œç´¢ã®è©±ï¼‰ã¯ãŠã„ãŠã„ã™ã‚‹ã¨ã—ã¦ã€ä»Šæ—¥ã¯ç ”ç©¶é–‹ç™ºéƒ¨ã®è©±ï¼ˆæ©Ÿæ¢°å¦ç¿’ã®è©±ï¼‰ã‚’ã—ã¾ã™ã€‚

fastText

å˜èªžã®åˆ†æ•£è¡¨ç¾ã€é‡è¦ã§ã™ã‚ˆãã€‚ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«å…¨ç››æœŸã®ç¾ä»£ã«ãŠã„ã¦ã€ä½¿ã‚ãªã„ã¨ã„ã†é¸æŠžè‚¢ã¯ã»ã¨ã‚“ã©ãªã„ã‚ˆã†ã«æ€ã„ã¾ã™ã€‚

æœ€åˆã«è©±é¡Œã«ãªã£ãŸã®ã¯ã€2013 å¹´ã«ç™ºè¡¨ã•ã‚ŒãŸ word2vec ã§ã—ã‚‡ã†ã€‚ã€Œkingã€ã®ãƒ™ã‚¯ãƒˆãƒ«ã‹ã‚‰ã€Œmanã€ã®ãƒ™ã‚¯ãƒˆãƒ«ã‚’å¼•ãã€ã€Œwomanã€ã®ãƒ™ã‚¯ãƒˆãƒ«ã‚’è¶³ã—ãŸã‚‰ã€Œqueenã€ã®ãƒ™ã‚¯ãƒˆãƒ«ã«ãªã£ãŸã¨ã„ã†è©±ã¯æœ‰åã§ã™ã€‚ä¸€æ–¹ã€æœ€è¿‘ã¯ã€2018 å¹´ã«ç™ºè¡¨ã•ã‚ŒãŸ BERTï¼ˆåŠã³ã€ãã‚Œã«é¡žã™ã‚‹ãƒ¢ãƒ‡ãƒ«ï¼‰ã®è©±é¡Œã§æŒã¡ãã‚Šã§ã™ãã€‚

fastText ã¯ã€ã”å˜çŸ¥ã®æ–¹ã‚‚å¤šã„ã¨æ€ã„ã¾ã™ãŒã€åˆ†æ•£è¡¨ç¾ã‚’å¦ç¿’ã™ã‚‹ãŸã‚ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã™ã€‚å¦ç¿’ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ è‡ªä½“ã‚’æŒ‡ã™ã“ã¨ã‚‚ã‚ã‚‹ã‚ˆã†ã«æ€ã„ã¾ã™ã€‚fastText ã®è«–æ–‡ã¯ä»¥ä¸‹ã§ã™ã€‚2017 å¹´ã«ç™ºè¡¨ã•ã‚ŒãŸã‚‚ã®ãªã®ã§ã€ç™ºå±•ãŒé€Ÿã„ã“ã®æ¥ç•Œã«ãŠã„ã¦ã¯ã‚‚ã†å¤ã„è«–æ–‡ãªã®ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚

Enriching Word Vectors with Subword Information. Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov.

ãªãœ fastText ãªã®ã‹ï¼Ÿ

ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã§ã¯ fastText ã‚’ã‚ˆãä½¿ã£ã¦ã„ã¾ã™ã€‚ã§ã¯ã€ãªãœ fastText ãªã®ã§ã—ã‚‡ã†ï¼Ÿä¸Šã§ã‚‚è§¦ã‚ŒãŸã‚ˆã†ã«ã€word2vec ã‚„ BERT ãªã©ã®é¸æŠžè‚¢ã‚‚ã‚ã‚Šã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ã€fastText ã‚‚ä¸»è¦ãªé¸æŠžè‚¢ã®ä¸€ã¤ã§ã¯ã‚ã‚Šã¾ã™ãŒã€ã©ã†ã—ã¦ fastText ãªã®ã§ã—ã‚‡ã†ã‹ï¼Ÿ

æ§˜ã€…ãªç†ç”±ãŒã‚ã‚Šã¾ã™ãŒã€ã¾ã¨ã‚ã‚‹ã¨ã€ã€Œæ€§èƒ½ã¨é‹ç”¨ã®ãƒãƒ©ãƒ³ã‚¹ãŒã‚ˆã„ã€ã¨ã„ã£ãŸã¨ã“ã‚ã§ã—ã‚‡ã†ã‹ã€‚

æ€§èƒ½ã®é¢ã§ã¯ã€ã‚µãƒ–ãƒ¯ãƒ¼ãƒ‰ï¼ˆéƒ¨åˆ†æ–‡å—åˆ—ï¼‰ãŒè€ƒæ…®ã§ãã‚‹åˆ†ã€word2vec ã‚ˆã‚Šã¯ fastText ãŒã‚ˆã„ã§ã—ã‚‡ã†ã€‚ä¸€æ–¹ã€æ–‡è„ˆã‚’è€ƒæ…®ã—ãŸè¡¨ç¾ãŒå¦ç¿’ã§ãã‚‹åˆ†ã€fastText ã‚ˆã‚Šã¯ BERT ãŒã‚ˆã•ãã†ã§ã™ã€‚ã‚‚ã¡ã‚ã‚“ã€ã“ã‚Œã‚‰ã¯ä¸€èˆ¬è«–ã§ã™ã€‚å®Ÿéš›ã«ã¯ã‚¿ã‚¹ã‚¯ã‚„å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã«ã‚ˆã£ã¦è©±ãŒé•ã£ã¦ãã‚‹ã§ã—ã‚‡ã†ã€‚

ä¸€æ–¹ã€é‹ç”¨ã®é¢ã§ã¯ BERT ã‚ˆã‚Š fastText ã‚„ word2vec ãŒã‚ˆã„ã§ã—ã‚‡ã†ã€‚BERT ã¯äº‹å‰å¦ç¿’ãŒå¤§å¤‰ã§ã™ã€‚ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã§ã‚‚ä½•åº¦ã‹ãƒˆãƒ©ã‚¤ã—ã¦ã„ã¾ã™ãŒã€ãŠé‡‘ã‚‚æ™‚é–“ã‚‚ã‹ã‹ã‚Šã¾ã™ã€‚å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã€å˜èªžåˆ†å‰²å™¨ã€ã‚µãƒ–ãƒ¯ãƒ¼ãƒ‰åˆ†å‰²å™¨ã€whole word maskingã€ãƒžã‚¹ã‚¯ç¢ºçŽ‡ã€...ã€‚è©¦è¡ŒéŒ¯èª¤ã™ã‚‹ã ã‘ã§ã‚‚ã‹ãªã‚Šã®ãŠé‡‘ã¨æ™‚é–“ãŒã‹ã‹ã‚Šã¾ã™ã€‚

ã‚‚ã¡ã‚ã‚“ã€ãƒ•ã‚¡ã‚¤ãƒ³ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã§æ¸ˆã¾ã™ã¨ã„ã†æ‰‹ã‚‚ã‚ã‚Šã¾ã™ã€‚ã‚ã‚ŠãŒãŸã„ã“ã¨ã«ã€ä¸–ã®ä¸ã«ã¯äº‹å‰å¦ç¿’æ¸ˆã¿ã®ãƒ¢ãƒ‡ãƒ«ãŒæ²¢å±±ã‚ã‚Šã¾ã™ã€‚ã“ã‚Œã‚‰ã‚’ä½¿ãˆã°ã€äº‹å‰å¦ç¿’ã™ã‚‹å¿…è¦ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚ã—ã‹ã—ã€çµå±€ã€ãƒ‡ãƒ—ãƒã‚¤ã™ã‚‹ã«ã¯ãƒ¢ãƒ‡ãƒ«ãŒå¤§ãã‹ã£ãŸã‚Šã€API ã¨ã—ã¦ä½¿ã†ã«ã¯æŽ¨è«–ãŒé…ã‹ã£ãŸã‚Šã¨ã„ã£ãŸå•é¡ŒãŒæ®‹ã‚Šã¾ã™ã€‚

ã“ã®ã‚ˆã†ã«ã€æ€§èƒ½ã¨é‹ç”¨ã®ãƒãƒ©ãƒ³ã‚¹ã‚’è€ƒãˆã‚‹ã¨ã€fastText ã¯ã„ã¾ã§ã‚‚éžå¸¸ã«å„ªã‚ŒãŸé¸æŠžè‚¢ã ã¨æ€ã„ã¾ã™ã€‚

fastText ã‚’ä½¿ã£ã¦ã„ã‚‹å–ã‚Šçµ„ã¿

ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã§ fastText ã‚’ä½¿ã£ã¦ã„ã‚‹å–ã‚Šçµ„ã¿ã¨ã—ã¦ã¯ã€ãŸã¨ãˆã°ã€ä»¥ä¸‹ãŒã‚ã‚Šã¾ã™ã€‚

å˜èªžåŸ‹ã‚è¾¼ã¿ã‚’åˆ©ç”¨ã—ãŸå•†å“ã«å¯¾ã™ã‚‹ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰ã®äºˆæ¸¬ï¼ˆto appearï¼‰. å±±å£æ³°å¼˜, æ·±æ¾¤ç¥æ´, åŽŸå³¶ç´”. è¨€èªžå‡¦ç†å¦ä¼šç¬¬ 28 å›žå¹´æ¬¡å¤§ä¼šç™ºè¡¨è«–æ–‡é›†.

ã“ã¡ã‚‰ã¯ã€ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ãƒžãƒ¼ãƒˆã®å•†å“åã‹ã‚‰ã€é£Ÿæã‚’è¡¨ã™ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰ã‚’äºˆæ¸¬ã™ã‚‹å–ã‚Šçµ„ã¿ã§ã™ã€‚ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰ã‚„å•†å“åã‚’ãƒ™ã‚¯ãƒˆãƒ«ã«å¤‰æ›ã™ã‚‹ã®ã« fastText ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚äºˆæ¸¬çµæžœã¯ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ãƒžãƒ¼ãƒˆã®ç®¡ç†ç”»é¢ã§ä½¿ã‚ã‚Œã¦ã„ã¾ã™ã€‚

ä½™è«‡ã§ã™ãŒã€ã“ã¡ã‚‰ã®å–ã‚Šçµ„ã¿ã¯ä»Šå¹´ã®è¨€èªžå‡¦ç†å¦ä¼šã§å§”å“¡ç‰¹åˆ¥è³žã‚’ã„ãŸã ãã¾ã—ãŸã€‚ã‚ã‚ŠãŒã¨ã†ã”ã–ã„ã¾ã™ã€‚

ãƒžãƒ«ãƒãƒ©ãƒ™ãƒ«åˆ†é¡žã«ã‚ˆã‚‹ææ–™æŽ¨è–¦ãƒ¢ãƒ‡ãƒ«. æ·±æ¾¤ç¥æ´, è¥¿å·è˜ä»‹, åŽŸå³¶ç´”. è¨€èªžå‡¦ç†å¦ä¼šç¬¬ 27 å›žå¹´æ¬¡å¤§ä¼šç™ºè¡¨è«–æ–‡é›†.

ã“ã¡ã‚‰ã¯ã€ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã‹ã‚‰ã€ãã®ãƒ¬ã‚·ãƒ”ã§ä½¿ã‚ã‚Œã‚‹ã§ã‚ã‚ã†é£Ÿæã‚’äºˆæ¸¬ã™ã‚‹å–ã‚Šçµ„ã¿ã§ã™ã€‚ã‚¿ã‚¤ãƒˆãƒ«ä¸ã®å˜èªžã‚’ãƒ™ã‚¯ãƒˆãƒ«ã«å¤‰æ›ã™ã‚‹ã®ã« fastText ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚äºˆæ¸¬çµæžœã¯ãƒ¬ã‚·ãƒ”ã®æŠ•ç¨¿ç”»é¢ã§ä½¿ã‚ã‚Œã¦ã„ã¾ã™ã€‚

RedshiftML in Cookpad. æ·±æ¾¤ç¥æ´. Redshift MLãƒãƒ³ã‚ºã‚ªãƒ³ + re:Invent re:Cap Analyticsç·¨.

ã“ã¡ã‚‰ã¯ã€ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã‹ã‚‰ã€ãã®ãƒ¬ã‚·ãƒ”ã®ã‚«ãƒ†ã‚´ãƒªï¼ˆe.g., è‚‰æ–™ç†ã€éšæ–™ç†ã€é‡Žèœæ–™ç†ã€...ï¼‰ã‚’äºˆæ¸¬ã™ã‚‹å–ã‚Šçµ„ã¿ã§ã™ã€‚ã“ã¡ã‚‰ã‚‚ã€ã‚¿ã‚¤ãƒˆãƒ«ä¸ã®å˜èªžã‚’ãƒ™ã‚¯ãƒˆãƒ«ã«å¤‰æ›ã™ã‚‹ã®ã« fastText ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚äºˆæ¸¬çµæžœã¯ã€è¿‘æ—¥ä¸ã«ã€ãƒ¬ã‚·ãƒ”ã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ç”»é¢ã§ä½¿ã‚ã‚Œã‚‹äºˆå®šã§ã™ã€‚

ãã®ä»–ã€ã¾ã å®Ÿé¨“æ®µéšŽã®å–ã‚Šçµ„ã¿ã§ã‚‚ fastText ã‚’ã‚ˆãä½¿ã£ã¦ã„ã¾ã™ã€‚

fastText ã®å¦ç¿’ãƒ»åˆ©ç”¨ãƒ•ãƒãƒ¼

ä»¥ä¸‹ã¯ã€ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã«ãŠã‘ã‚‹ fastText ã®å¦ç¿’ãƒ»åˆ©ç”¨ãƒ•ãƒãƒ¼ã§ã™ã€‚Redshift ã‹ã‚‰å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã‚’å–å¾—ã—ã€fastText ã‚’å¦ç¿’ã—ãŸå¾Œã€ãƒ¢ãƒ‡ãƒ«ã‚’ S3ã«ä¿å˜ã™ã‚‹ã¨ã„ã†ã®ãŒãŠãŠã¾ã‹ãªæµã‚Œã§ã™ã€‚ãŸã„ã—ãŸã“ã¨ã¯ã—ã¦ã„ã¾ã›ã‚“ã€‚ã¡ã‚‡ã£ã¨å¤‰ã‚ã£ãŸã“ã¨ãŒã‚ã‚‹ã¨ã™ã‚Œã°ã€å¦ç¿’ãƒ‡ãƒ¼ã‚¿ãŒ Redshift ã«ã‚ã‚‹ã“ã¨ãã‚‰ã„ã§ã—ã‚‡ã†ã‹ã€‚

f:id:jharashima:20220418092004p:plain:w300

1. å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®å–å¾—

fastText ã®å¦ç¿’ã«ã¯ãƒ†ã‚ã‚¹ãƒˆãŒå¿…è¦ã§ã™ã€‚æ—¥æœ¬èªžã®å ´åˆã€ã•ã‚‰ã«ã€å˜èªžåˆ†å‰²ãŒå¿…è¦ã§ã™ã€‚

ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã®å ´åˆã€å…¨ãƒ¬ã‚·ãƒ”ã®ãƒ†ã‚ã‚¹ãƒˆï¼ˆe.g., ã‚¿ã‚¤ãƒˆãƒ«ï¼‰ãŒ Redshift ã«ä¿å˜ã•ã‚Œã¦ã„ã¾ã™ã€‚ã¾ãŸã€ãã®åˆ†å‰²çµæžœã‚‚ Redshift ã«ä¿å˜ã•ã‚Œã¦ã„ã¾ã™ã€‚è©³ç´°ã¯ä»¥ä¸‹ã®è¨˜äº‹ã‚’ã”è¦§ãã ã•ã„ã€‚fastText ã®å¦ç¿’ã«ã¯ã“ã‚Œã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚

å½¢æ…‹ç´ è§£æžã‚’è¡Œãªã†ã ã‘ã®ãƒãƒƒãƒã‚’ã¤ãã‚‹

åˆ†å‰²çµæžœã®å–å¾—ã«ã¯ Queueryï¼ˆãã‚…ã†ã‚Šï¼‰ã¨ã„ã†ã‚·ã‚¹ãƒ†ãƒ ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚Queuery ã¯ã€UNLOAD ã‚’ä½¿ã†ã“ã¨ã§ã€Redshift ã‚„ã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã«è² è·ã‚’ã‹ã‘ãšã« SELECT ã‚’å®Ÿè¡Œã§ãã‚‹ã‚·ã‚¹ãƒ†ãƒ ã§ã™ã€‚Queuery ã¯åŽ»å¹´æœ«ã« OSS åŒ–ã•ã‚Œã¾ã—ãŸã€‚è©³ç´°ã¯ä»¥ä¸‹ã®è¨˜äº‹ã‚’ã”è¦§ãã ã•ã„ã€‚ç ”ç©¶é–‹ç™ºéƒ¨ã®å±±å£ã«ã‚ˆã‚‹ Python ã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã‚‚ã‚ã‚Šã¾ã™ã€‚

Redshiftã®ãƒ‡ãƒ¼ã‚¿ã‚’ã‚µãƒ¼ãƒ“ã‚¹æ”¹å–„ã«å½¹ç«‹ã¦ã‚‹ãƒ‡ãƒ¼ã‚¿è»¢é€ã‚·ã‚¹ãƒ†ãƒ Queuery

2. fastText ã®å¦ç¿’

Python ã‚¹ã‚¯ãƒªãƒ—ãƒˆã«ä»¥ä¸‹ã® 2 è¡Œã‚’æ›¸ãã ã‘ã§ã™ã€‚fastTextã€ä¾¿åˆ©ã™ãŽã¾ã™ã...ã€‚

import fasttext
model = fasttext.train_unsupervised('data.txt', model='skipgram')  # cbow ã§ã‚‚å¯

å…¨ãƒ¬ã‚·ãƒ”ï¼ˆ2022 å¹´ 4 æœˆæ™‚ç‚¹ã§ç´„ 367 ä¸‡å“ï¼‰ã®ãƒ†ã‚ã‚¹ãƒˆã‚’ä½¿ã£ã¦ã‚‚ã€å¦ç¿’ã¯ç´„ 10 åˆ†ã§çµ‚ã‚ã‚Šã¾ã™ã€‚ãƒ¡ãƒ¢ãƒªã‚‚ 2GB ç¨‹åº¦ã§æ¸ˆã‚“ã§ã„ã¾ã™ã€‚å¦ç¿’ã«ã¯ EC2 ã®ã‚¹ãƒãƒƒãƒˆã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚

ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã¯ç‰¹ã«ã„ã˜ã£ã¦ãŠã‚‰ãšã€ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®ã¾ã¾ã§ã™ã€‚ãŸã¨ãˆã°ã€ãƒ™ã‚¯ãƒˆãƒ«ã®æ¬¡å…ƒæ•°ã¯ 100 ã§ã™ã€‚ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã¯ä»Šå¾Œã®èª²é¡Œï¼ˆå¾Œè¿°ï¼‰ã§ã™ã€‚

3. ãƒ¢ãƒ‡ãƒ«ã®ä¿å˜

ãƒ¢ãƒ‡ãƒ«ã¯ S3 ã«ä¿å˜ã—ã¦ã„ã¾ã™ã€‚ãƒãƒ¼ãƒ«ãƒãƒƒã‚¯ã§ãã‚‹ã‚ˆã†ã«ã€éŽåŽ»ã«å¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ã‚‚æ®‹ã—ã¦ã‚ã‚Šã¾ã™ã€‚å¹¸ã„ã€å®Ÿéš›ã«ãƒãƒ¼ãƒ«ãƒãƒƒã‚¯ãŒå¿…è¦ã«ãªã£ãŸã“ã¨ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚ã¾ã ç‰¹ã«å›°ã£ã¦ã„ã¾ã›ã‚“ãŒã€ãƒ©ã‚¤ãƒ•ã‚µã‚¤ã‚¯ãƒ«ãã‚‰ã„ã¯è¨å®šã—ã¦ã‚‚ã„ã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚

4. ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰

å¦ç¿’æ¸ˆã¿ã®ãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ã„ãŸã„ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã«å¯¾ã—ã¦ S3 ã®è©²å½“ãƒ•ã‚©ãƒ«ãƒ€ã¸ã® Read ã‚¢ã‚¯ã‚»ã‚¹ã‚’è¨±å¯ã—ã¾ã™ã€‚ã“ã‚Œã§å„ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã§ãƒ¢ãƒ‡ãƒ«ã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã§ãã¾ã™ã€‚

fastText ã¯ãƒ¬ã‚·ãƒ”ã®ãƒ•ã‚£ãƒ¼ãƒ«ãƒ‰ï¼ˆe.g., ã‚¿ã‚¤ãƒˆãƒ«ã€ææ–™ã€...ï¼‰æ¯Žã«å¦ç¿’ã—ã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯ã€fastText ã‚’ä½¿ã†ã‚¿ã‚¹ã‚¯æ¯Žã«ç€ç›®ã™ã‚‹ãƒ•ã‚£ãƒ¼ãƒ«ãƒ‰ãŒé•ã†ãŸã‚ã§ã™ã€‚ã‚¿ã‚¤ãƒˆãƒ«ã«ç€ç›®ã™ã‚‹ã‚¿ã‚¹ã‚¯ï¼ˆe.g., ãƒ¬ã‚·ãƒ”ã®åˆ†é¡žï¼‰ã§ã¯ã‚¿ã‚¤ãƒˆãƒ«ã§å¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ãŒä½¿ãˆã‚‹ã‚ˆã†ã«ã€ææ–™ã«ç€ç›®ã™ã‚‹ã‚¿ã‚¹ã‚¯ï¼ˆe.g., ææ–™ã®åˆ†é¡žï¼‰ã§ã¯ææ–™ã§å¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ãŒä½¿ãˆã‚‹ã‚ˆã†ã«ã—ã¦ã„ã¾ã™ã€‚

ã‚¸ãƒ§ãƒ–ã‚¹ã‚±ã‚¸ãƒ¥ãƒ¼ãƒ©ãƒ¼ã‚„ãƒ‡ãƒ—ãƒã‚¤ãƒ„ãƒ¼ãƒ«ã«ã¯ Kuroko2 ã‚„ hako ã‚’ä½¿ã£ã¦ã„ã¾ã™ã€‚å®Ÿè¡Œã¯åŸºæœ¬çš„ã«æœˆæ¬¡ã§ã™ã€‚å¦ç¿’æ™‚é–“ãŒçŸã„ã®ã§ã€æ—¥æ¬¡ã§å®Ÿè¡Œã—ãŸã¨ã“ã‚ã§ã€ç‰¹ã«å•é¡Œã¯ã‚ã‚Šã¾ã›ã‚“ã€‚ãŸã ã€åˆ†æ•£è¡¨ç¾ã¯ãã‚“ãªã«å¤‰ã‚ã‚‰ãªã„ã ã‚ã†ã¨æ€ã†ã®ã§ã€æœˆæ¬¡ã¨ã—ã¦ã„ã¾ã™ã€‚ã‚‚ã—ã‹ã—ãŸã‚‰å¹´æ¬¡ã§ã‚‚ã„ã„ã®ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚

ä»Šå¾Œã®èª²é¡Œ

ä¸€ã¤ç›®ã¯ã€ã€ŒfastText ã®å¦ç¿’ã€ã§ã‚‚è§¦ã‚ŒãŸã‚ˆã†ã«ã€ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã§ã™ã€‚å¦ç¿’ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚„å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã€å¦ç¿’çŽ‡ã€ãƒ™ã‚¯ãƒˆãƒ«ã®æ¬¡å…ƒæ•°ã€ã‚µãƒ–ãƒ¯ãƒ¼ãƒ‰ã®ãƒ¬ãƒ³ã‚¸ãªã©ã€ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã®ä½™åœ°ã¯ãŸãã•ã‚“ã‚ã‚Šã¾ã™ã€‚ã“ã®è¾ºã‚Šã¯è…°ã‚’æ®ãˆã¦å–ã‚Šçµ„ã‚“ã§ã„ããŸã„ã§ã™ã€‚

äºŒã¤ç›®ã¯åˆ†æ•£è¡¨ç¾ã®è©•ä¾¡ã§ã™ã€‚ä¸€ã¤ç›®ã®è©±ã¨ã‚‚é–¢é€£ã™ã‚‹ã®ã§ã™ãŒã€ã©ã®ã‚ˆã†ãªåˆ†æ•£è¡¨ç¾ãŒã‚ˆã„ã‹ã¯è‡ªæ˜Žã§ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚åŸºæœ¬çš„ã«ã¯ã€å¾Œæ®µã®ã‚¿ã‚¹ã‚¯ã«ãŠã‘ã‚‹è©•ä¾¡æŒ‡æ¨™ã‚’æœ€é©åŒ–ã™ã‚‹åˆ†æ•£è¡¨ç¾ãŒã‚ˆã„æ°—ãŒã—ã¾ã™ã€‚ãŸã ã€å¾Œæ®µã®ã‚¿ã‚¹ã‚¯ã«ã‚‚ã„ã‚ã„ã‚ã‚ã‚‹ã®ã§ã€æ‚©ã¾ã—ã„ã¨ã“ã‚ã§ã™ã€‚

ä¸‰ã¤ç›®ã¯ä»£æ›¿ãƒ¢ãƒ‡ãƒ«ã®èª¿æŸ»ã§ã™ã€‚ã€Œãªãœ fastText ãªã®ã‹ï¼Ÿã€ã§ã‚‚è§¦ã‚ŒãŸã‚ˆã†ã«ã€æœ¬ç•ªã§ã®é‹ç”¨ã¾ã§è€ƒãˆã‚‹ã¨ã€BERT ã®ã‚ˆã†ãªãƒ¢ãƒ‡ãƒ«ãŒ fastText ã‚ˆã‚Šæ˜Žã‚‰ã‹ã«ã‚ˆã„ã¨ã¯è¨€ãˆã¾ã›ã‚“ã€‚ä¸€æ–¹ã€ã“ã®æ¥ç•Œã®ç™ºå±•ã¯é€Ÿãã€æ§˜ã€…ãªæ‡¸å¿µã‚’æ‰•æ‹ã™ã‚‹ãƒ¢ãƒ‡ãƒ«ãŒæ˜Žæ—¥ã«ã‚‚ç™ºè¡¨ã•ã‚Œã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚æ¥ç•Œã®å‹•å‘ã«ã¯å¸¸ã«ã‚¢ãƒ³ãƒ†ãƒŠã‚’å¼µã£ã¦ã„ããŸã„ã§ã™ã€‚

ãŠã‚ã‚Šã«

ãã†ã„ãˆã°ã€ã¤ã„æœ€è¿‘ã€å°±æ¥å½¢ã‚¤ãƒ³ã‚¿ãƒ¼ãƒ³ã‚·ãƒƒãƒ—ã«ã€Œæ©Ÿæ¢°å¦ç¿’ã‚³ãƒ¼ã‚¹ã€ã‚’é–‹è¨ã—ã¾ã—ãŸã€‚ä¸Šã§æŒ™ã’ãŸèª²é¡Œã¯ã‚‚ã¡ã‚ã‚“ã€ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã«ãŠã‘ã‚‹æ©Ÿæ¢°å¦ç¿’ã«èˆˆå‘³ãŒã‚ã‚‹æ–¹ã¯æ˜¯éžã”å¿œå‹Ÿãã ã•ã„ã€‚

ä¸é€”æŽ¡ç”¨ã®ã”å¿œå‹Ÿã‚‚ãŠå¾…ã¡ã—ã¦ãŠã‚Šã¾ã™ã€‚

æ©Ÿæ¢°å¦ç¿’ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ï¼ˆç ”ç©¶é–‹ç™ºï¼‰
- https://cookpad.wd3.myworkdayjobs.com/jobs/job/Kanagawa--Japan/--_R-002435

ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰é–‹ç™ºè€…ãƒ–ãƒã‚°

fastText in Cookpad

fastText

ãªãœ fastText ãªã®ã‹ï¼Ÿ

fastText ã‚’ä½¿ã£ã¦ã„ã‚‹å–ã‚Šçµ„ã¿

fastText ã®å¦ç¿’ãƒ»åˆ©ç”¨ãƒ•ãƒãƒ¼

1. å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®å–å¾—

2. fastText ã®å¦ç¿’

3. ãƒ¢ãƒ‡ãƒ«ã®ä¿å˜

4. ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰

ä»Šå¾Œã®èª²é¡Œ

ãŠã‚ã‚Šã«

fastText

ãªãœ fastText ãªã®ã‹ï¼Ÿ

fastText ã‚’ä½¿ã£ã¦ã„ã‚‹å–ã‚Šçµ„ã¿

fastText ã®å­¦ç¿’ãƒ»åˆ©ç”¨ãƒ•ãƒ­ãƒ¼

1. å­¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®å–å¾—

2. fastText ã®å­¦ç¿’

3. ãƒ¢ãƒ‡ãƒ«ã®ä¿å­˜

4. ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒ­ãƒ¼ãƒ‰

ä»Šå¾Œã®èª²é¡Œ

ãŠã‚ã‚Šã«

ãªãœ fastText ãªã®ã‹ï¼Ÿ

fastText ã‚’ä½¿ã£ã¦ã„ã‚‹å–ã‚Šçµ„ã¿

fastText ã®å¦ç¿’ãƒ»åˆ©ç”¨ãƒ•ãƒãƒ¼

1. å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®å–å¾—

2. fastText ã®å¦ç¿’

3. ãƒ¢ãƒ‡ãƒ«ã®ä¿å˜

4. ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰

ä»Šå¾Œã®èª²é¡Œ

ãŠã‚ã‚Šã«