ç ”ç©¶é–‹ç™ºéƒ¨ã®ã‚µã‚¦ãƒ©ãƒ–(bira)ã§ã™ã€‚

æœ¬ç¨¿ã§ã¯ãƒ¦ãƒ¼ã‚¶ãŒãƒ¬ã‚·ãƒ”ã®ä½œæˆã«ã‹ã‘ã‚‹åŠ´åŠ›ã‚’æ¸›ã‚‰ã™ãŸã‚ã«å–ã‚Šå…¥ã‚ŒãŸã€æ©Ÿæ¢°å¦ç¿’ã‚’åˆ©ç”¨ã—ãŸæ©Ÿèƒ½ã®ä¸€ã¤ã«ã¤ã„ã¦ è§£èª¬ã—ã¾ã™ã€‚ã“ã®æ©Ÿèƒ½ã‚’åˆ©ç”¨ã™ã‚‹ã¨ã€ãƒ¦ãƒ¼ã‚¶ãŒãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã‚’å…¥åŠ›ã™ã‚‹ã“ã¨ã§ã€åˆ©ç”¨ã•ã‚Œã‚‹ã§ã‚ã‚ã†ææ–™ãŒäºˆæ¸¬ã§ãã¾ã™ã€‚

è¦ç´„

ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã‹ã‚‰ææ–™ã‚’äºˆæ¸¬ã§ãã‚‹ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã‚Šã¾ã—ãŸã€‚
æŠ•ç¨¿é–‹ç™ºéƒ¨ã¨å”åŠ›ã—ã¦ãƒ¬ã‚·ãƒ”ã‚¨ãƒ‡ã‚£ã‚¿ã«ææ–™ææ¡ˆæ©Ÿèƒ½ã‚’è¿½åŠ ã—ã¾ã—ãŸã€‚

App Storeã§å…¥æ‰‹å¯èƒ½ãªæœ€æ–°ã®Cookpadã‚¢ãƒ—ãƒªï¼ˆv19.6.0.0ï¼‰ã§ã“ã®æ©Ÿèƒ½ã‚’ä½¿ç”¨ã§ãã¾ã™ã€‚

å‰	ä»Š

ãƒ¢ãƒ‡ãƒ«ã¯ã©ã†ãªã£ã¦ã„ã‚‹ã‹

1.ã€€Embed

f:id:bira:20190220104854p:plain

å¦ç¿’(Training): Word Embeddingã¨Sentenceã€€Embeddingã‚’å¦ç¿’ã—ã¦S3ã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã—ã¾ã™ã€‚ï¼ˆæ¬¡ã®ã‚»ã‚¯ã‚·ãƒ§ãƒ³ã§èª¬æ˜Žï¼‰
å‰å‡¦ç†(Preprocessing): ç‰¹æ®Šæ–‡å—ã‚’å‰Šé™¤ã—ã¾ã™ã€‚ å¤šãã®Cookpadãƒ¦ãƒ¼ã‚¶ãƒ¼ã¯ãƒ†ã‚ã‚¹ãƒˆã«ç‰¹æ®Šæ–‡å—ã‚’ä½¿ç”¨ã—ã¦ã„ã¾ã™ã€‚ ä¾‹ï¼š"âœ§ãŠã„ã—ã„â™¡ã‚¿ãƒ³ãƒ‰ãƒªãƒ¼ãƒã‚ãƒ³â™¡^-^âœ§"ã«ç‰¹æ®Šæ–‡å—ãŒå«ã¾ã‚Œã¦ã„ã¾ã™ï¼š â™¡, âœ§,^-^ã€‚ç‰¹æ®Šæ–‡å—ã«ã¯ææ–™ã«é–¢ã™ã‚‹æƒ…å ±ãŒå«ã¾ã‚Œã¦ã„ãªã„ã®ã§ã€ãã‚Œã‚‰ã‚’å‰Šé™¤ã—ã¾ã™ã€‚ç‰¹æ®Šæ–‡å—ã‚’å‰Šé™¤ã™ã‚‹ã«ã¯ã€æ¬¡ã®python Functionã‚’ä½œæˆã—ã¾ã—ãŸï¼š

ã‚³ãƒ¼ãƒ‰ã‚’è¡¨ç¤ºã™ã‚‹

  import re
  def remove_special_characters(text):
      non_CJK_patterns = re.compile("[^"
                                    u"\U00003040-\U0000309F"  # Hiragana
                                    u"\U000030A0-\U000030FF"  # Katakana
                                    u"\U0000FF65-\U0000FF9F"  # Half width Katakana
                                    u"\U0000FF10-\U0000FF19"  # Full width digits
                                    u"\U0000FF21-\U0000FF3A"  # Full width Upper case  English Alphabets
                                    u"\U0000FF41-\U0000FF5A"  # Full width Lower case English Alphabets
                                    u"\U00000030-\U00000039"  # Half width digits
                                    u"\U00000041-\U0000005A"  # Half width  Upper case English Alphabets
                                    u"\U00000061-\U0000007A"  # Half width Lower case English Alphabets
                                    u"\U00003190-\U0000319F"  # Kanbun
                                    u"\U00004E00-\U00009FFF"  # CJK unified ideographs. kanjis
                                    "]+",  flags=re.UNICODE)
      return non_CJK_patterns.sub(r"", text)

ãƒˆãƒ¼ã‚¯ãƒ³åŒ–ã™ã‚‹(Tokenize): MeCabã‚’ä½¿ã£ã¦ãƒ†ã‚ã‚¹ãƒˆã‚’ãƒˆãƒ¼ã‚¯ãƒ³åŒ–ã—ã¾ã™ã€‚
Embedding: Word Embeddingã¨Sentence Embedding ãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ç”¨ã—ã¦ã€Cookpadãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹å†…ã®å„ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã‚’ãƒ™ã‚¯ãƒˆãƒ«ã«å¤‰æ›ã—ã¾ã™ã€‚
ç´¢å¼•ä»˜ã‘(Indexing): Faissã‚’ä½¿ç”¨ã—ã¦ãƒ™ã‚¯ãƒˆãƒ«ã«ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‚’ä»˜ã‘ï¼ˆmethod = IndexFlatIPï¼Exact Search for Inner Productï¼‰ã€ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‚’S3ã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã—ã¾ã™ã€‚Faiss(Facebook AI Similarity Searchï¼‰ã¯ã€ãƒ™ã‚¯ãƒˆãƒ«ã®åŠ¹çŽ‡çš„ãªé¡žä¼¼æ¤œç´¢ã®ãŸã‚ã«Facebook AIã«ã‚ˆã£ã¦é–‹ç™ºã•ã‚ŒãŸãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã™ã€‚ Faissã¯10å„„ã‚¹ã‚±ãƒ¼ãƒ«ã®ãƒ™ã‚¯ãƒˆãƒ«ã‚»ãƒƒãƒˆã§æœ€è¿‘å‚æ¤œç´¢ã‚’ã‚µãƒãƒ¼ãƒˆã—ã¾ã™ã€‚
2. Search&Suggest (API Server)
S3ã‹ã‚‰Word Embeddingãƒ¢ãƒ‡ãƒ«ã¨Sentence Embeddingãƒ¢ãƒ‡ãƒ«ã¨Faiss Indexã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¾ã™ã€‚
Word Embeddingãƒ¢ãƒ‡ãƒ«ã¨Sentence Embeddingãƒ¢ãƒ‡ãƒ«ã¨Faiss Indexã‚’ãƒ¡ãƒ¢ãƒªã«ãƒãƒ¼ãƒ‰ã—ã¾ã™ã€‚
Embeddingãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ç”¨ã—ã¦ã€å…¥åŠ›ã•ã‚ŒãŸã‚¿ã‚¤ãƒˆãƒ«ã‚’ãƒ™ã‚¯ãƒˆãƒ«ã«å¤‰æ›ã—ã¾ã™ã€‚
Faissã‚’ä½¿ç”¨ã—ã¦kå€‹ã®é¡žä¼¼ã™ã‚‹ãƒ¬ã‚·ãƒ”ã‚’æ¤œç´¢ã—ã¾ã™ã€‚
é¡žä¼¼ã™ã‚‹ãƒ¬ã‚·ãƒ”ã®ä¸ã§æœ€ã‚‚ä¸€èˆ¬çš„ãªææ–™ã‚’ææ¡ˆã—ã¾ã™ã€‚

Embeddingsã‚’å¦ç¿’ã™ã‚‹:

ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ãƒ‡ãƒ¼ã‚¿ã§Word Embeddingãƒ¢ãƒ‡ãƒ«ï¼ˆFasttextï¼‰ã‚’å¦ç¿’ã—ã¾ã™ã€‚

gensimã§Fasttextã‚’ä½¿ã£ã¦ã„ã¾ã—ãŸã€‚gensimã¯ã¨ã¦ã‚‚ä½¿ã„ã‚„ã™ã„ã§ã™ã€‚

ã‚³ãƒ¼ãƒ‰ã‚’è¡¨ç¤ºã™ã‚‹

from gensim.models import FastText
# recipe_titles : [.....,ç‰›ä¹³ã§ç°¡å˜ï¼æœ¬æ ¼ã¾ã‚ã‚„ã‹å¦ã€…éºº,...]
# tokenize recipe titles using MeCab and then train fasttext model
# recipe_title_list(tokenized) : [...,['ç‰›ä¹³','ã§','ç°¡å˜','ï¼','','æœ¬æ ¼','ã¾ã‚ã‚„ã‹','å¦ã€…','éºº'],....]
ft_model = FastText(size=100,min_count=5,window=5,iter=100, sg=1)
ft_model.build_vocab(recipe_title_list)
ft_model.train(recipe_title_list, total_examples=ft_model.corpus_count, epochs=ft_model.iter)

ãªãœFasttextã‚’é¸ã‚“ã ã®ã§ã™ã‹ï¼Ÿ

Fasttextï¼ˆã“ã‚Œã¯æœ¬è³ªçš„ã«word2vecãƒ¢ãƒ‡ãƒ«ã®æ‹¡å¼µã§ã™ï¼‰ã¯ã€å„å˜èªžã‚’æ–‡å—n-gramã§æ§‹æˆã•ã‚Œã¦ã„ã‚‹ã‚‚ã®ã¨ã—ã¦è€ƒãˆã¾ã™ã€‚ ãã®ãŸã‚ã€å˜èªžãƒ™ã‚¯ãƒˆãƒ«ã¯ã€ã“ã‚Œã‚‰ã®æ–‡å—æ•°n-gramã®åˆè¨ˆã§æ§‹æˆã•ã‚Œã¾ã™ã€‚ä¾‹ï¼šâ€ä¸è¯ä¸¼â€ã®å˜èªžãƒ™ã‚¯ãƒˆãƒ«ã¯n-gramâ€ï¼œä¸â€ã€â€ä¸â€ã€â€ï¼œä¸è¯â€ã€â€è¯â€ã€â€ä¸è¯â€ã€â€ä¸è¯ä¸¼ï¼žâ€ã€â€è¯ä¸¼ï¼žâ€ã®ãƒ™ã‚¯ãƒˆãƒ«ã®åˆè¨ˆã§ã™ã€‚Fasttextã¯ã‚µãƒ–ãƒ¯ãƒ¼ãƒ‰æƒ…å ±ã§å˜èªžãƒ™ã‚¯ãƒˆãƒ«ã‚’å……å®Ÿã•ã›ã¾ã™ã€‚ãã‚Œã‚†ãˆ: - ç¨€ãªå˜èªžã«å¯¾ã—ã¦ã‚‚ã‚ˆã‚Šè‰¯ã„Word Embeddingsã‚’ç”Ÿæˆã—ã¾ã™ã€‚ãŸã¨ãˆè¨€è‘‰ãŒç¨€ã§ã‚ã£ã¦ã‚‚ã€ãã‚Œã‚‰ã®æ–‡å—n-gramã¯ã¾ã ä»–ã®å˜èªžä¸ã«å‡ºç¾ã—ã¦ã„ã¾ã™ã€‚ãã®ãŸã‚ã€ãã® Embedding ã¯ä½¿ç”¨å¯èƒ½ã§ã™ã€‚ä¾‹:â€ä¸è¯é¢¨â€ã¯â€ä¸è¯ä¸¼â€ã‚„â€ä¸è¯ã‚µãƒ©ãƒ€â€ã®ã‚ˆã†ãªä¸€èˆ¬çš„ãªå˜èªžã¨æ–‡å—n-gramã‚’å…±æœ‰ã™ã‚‹ã“ã¨ã¯ç¨€ã§ã‚ã‚‹ãŸã‚ã€Fasttextã‚’ä½¿ç”¨ã—ã¦é©åˆ‡ãªå˜èªžã®Embeddingã‚’å¦ç¿’ã§ãã¾ã™ã€‚ - èªžå½™å¤–ã®å˜èªž - å¦ç¿’ç”¨ã‚³ãƒ¼ãƒ‘ã‚¹ã«å˜èªžãŒå‡ºç¾ã—ã¦ã„ãªãã¦ã‚‚ã€æ–‡å—ã®n-gramæ•°ã‹ã‚‰å˜èªžãƒ™ã‚¯ãƒˆãƒ«ã‚’ä½œæˆã§ãã¾ã™ã€‚

Sentence Embeddingãƒ¢ãƒ‡ãƒ«ã‚’å¦ç¿’ã—ã¾ã™ã€‚

äºŒã¤ã® Sentence Embedding ãƒ¢ãƒ‡ãƒ«ã‚’è©¦ã—ã¦ã¿ã¾ã—ãŸ:

Average of Word Embeddings:æ–‡ã¯æœ¬è³ªçš„ã«å˜èªžã§æ§‹æˆã•ã‚Œã¦ã„ã‚‹ã®ã§ã€å˜ã«å˜èªžãƒ™ã‚¯ãƒˆãƒ«ã®åˆè¨ˆã¾ãŸã¯å¹³å‡ã‚’å–ã‚Œã°æ–‡ã®ãƒ™ã‚¯ãƒˆãƒ«ã«ãªã‚‹ã¨è¨€ãˆã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ ã“ã®ã‚¢ãƒ—ãƒãƒ¼ãƒã¯ã€Bag-of-wordsè¡¨ç¾ã«ä¼¼ã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯å˜èªžã®é †åºã¨æ–‡ã®æ„å‘³ã‚’å®Œå…¨ã«ç„¡è¦–ã—ã¾ã™ï¼ˆã“ã®å•é¡Œã§é †åºã¯é‡è¦ã§ã—ã‚‡ã†ã‹ï¼ŸðŸ¤”ï¼‰ã€‚

ã‚³ãƒ¼ãƒ‰ã‚’è¡¨ç¤ºã™ã‚‹

  import MeCab
  VECTOR_DIMENSION=200
  mecab_tokenizer_pos = MeCab.Tagger("-Ochasen")
  def sentence_embedding_avg(title, model=ft_model):
      relavant_words = [ws.split('\t') for ws in mecab_tokenizer_pos.parse(title).split('\n')[:-2]]
      relavant_words = [w[0] for w in relavant_words if w[3].split('-')[0] in ['åè©ž', 'å‹•è©ž', 'å½¢å®¹è©ž']]
      sentence_embedding = np.zeros(VECTOR_DIMENSION)
      cnt = 0
      for word in relavant_words:
          if word in model.wv
              word_embedding = model.wv[word]
              sentence_embedding += word_embedding
              cnt += 1
      if cnt > 0:
          sentence_embedding /= cnt
      return sentence_embedding

ãƒˆãƒ¼ã‚¯ãƒ³åŒ–ã™ã‚‹(Tokenize): MeCabã‚’ä½¿ç”¨ã—ã¦æ–‡ã‚’å½¢æ…‹ç´ è§£æžã—ã¾ã™ã€‚
ãƒ•ã‚£ãƒ«ã‚¿(filter) :åè©žã€å½¢å®¹è©žã€å‹•è©žã ã‘ã‚’æ®‹ã—ã¦ã€ä»–ã®å˜èªžã‚’é™¤å¤–ã—ã¾ã™ã€‚
å¹³å‡(Average): ãƒ•ã‚£ãƒ«ã‚¿å‡¦ç†ã—ãŸå˜èªžã®Word Embeddingã‚’å–å¾—ã—ã€ãã‚Œã‚‰ã‚’å¹³å‡ã—ã¦ã‚¿ã‚¤ãƒˆãƒ«ãƒ™ã‚¯ãƒˆãƒ«ã‚’å–å¾—ã—ã¾ã™ã€‚
Bi-LSTM Sentence Embeddings: Cookpadã®ãƒ¬ã‚·ãƒ”ãƒ‡ãƒ¼ã‚¿ã‚’ä½¿ã£ã¦æ•™å¸«ã‚ã‚Šå¦ç¿’ã«ã‚ˆã£ã¦Sentence Embeddingã‚’å¦ç¿’ã—ã¾ã™ã€‚ãƒ©ãƒ™ãƒ«ã¯2ã¤ã®ãƒ¬ã‚·ãƒ”é–“ã®Jaccard Similarityã‹ã‚‰å°Žãå‡ºã—ã¾ã™ã€‚ãƒ¬ã‚·ãƒ”ã‚’ææ–™ã®ã‚»ãƒƒãƒˆã¨è¦‹ãªã™ã¨ã€2ã¤ã®ãƒ¬ã‚·ãƒ”é–“ã®Jaccard Similarityã¯æ¬¡ã®ã‚ˆã†ã«è¨ˆç®—ã•ã‚Œã¾ã™ã€‚

ã‚¢ã‚¤ãƒ‡ã‚¢ã¯ã€ãã‚Œã‚‰ã®é–“ã®é«˜ã„Jaccard Similarityã‚’æŒã¤ãƒ¬ã‚·ãƒ”ã®ãƒ¬ã‚·ãƒ”ã‚¿ã‚¤ãƒˆãƒ«ãƒ™ã‚¯ãƒˆãƒ«ã‚’Sentence Embeddingã‚¹ãƒšãƒ¼ã‚¹å†…ã§äº’ã„ã«è¿‘ãã«é…ç½®ã™ã‚‹ã“ã¨ã§ã™ã€‚
- ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½œæˆã—ã¾ã™: 2ã¤ã®ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã¨ã€ã“ã‚Œã‚‰2ã¤ã®ãƒ¬ã‚·ãƒ”ã®é¡žä¼¼åº¦ã‚’è¡¨ã™Jaccardã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‚’å«ã‚€å„ã‚µãƒ³ãƒ—ãƒ«è¡Œã‚’æŒã¤ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½œæˆã—ã¾ã™ã€‚{title_1, title_2, Jaccard_index}
- ä¸‹ã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’å¦ç¿’ã—ã¾ã™: ä¸Šè¨˜ã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã¯2ã¤ã®è¨å®šã§å¦ç¿’ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™:
  - Regression: g(-) : sigmoid ã¨ y = Jaccard Index
  - Classification: g(-): dense+dense(softmax) ã¨ y = Jaccardã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‹ã‚‰æ´¾ç”Ÿã—ãŸã‚¯ãƒ©ã‚¹ãƒ©ãƒ™ãƒ« 5ã‚¯ãƒ©ã‚¹ã®åˆ†é¡žè¨å®šã§ä¸Šè¨˜ã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’å¦ç¿’ã™ã‚‹ã“ã¨ã«ã‚ˆã£ã¦å¦ç¿’ã•ã‚ŒãŸFï¼ˆ - ï¼‰ã¯ã€æœ€ã‚‚ã‚ˆãæ©Ÿèƒ½ã™ã‚‹ã‚ˆã†ã§ã™ã€‚ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã«ã¨ã£ã¦ã€å›žå¸°å•é¡Œã‚ˆã‚Šã‚‚åˆ†é¡žå•é¡Œã®æ–¹ãŒè§£ãã‚„ã™ã„å ´åˆãŒã‚ã‚Šã¾ã™ã€‚
  Kerasã§ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’å®Ÿè£…ã™ã‚‹:

ã‚³ãƒ¼ãƒ‰ã‚’è¡¨ç¤ºã™ã‚‹

    from keras import backend as K
    from keras import optimizers
    from keras.models import Model
    from keras.layers import Embedding, LSTM, Input, Reshape, Lambda, Dense
    from keras.layers import Bidirectional
    import numpy as np
    def cosine_distance(vects):
        x, y = vects
        x = K.l2_normalize(x, axis=-1)
        y = K.l2_normalize(y, axis=-1)
        return K.sum(x * y, axis=-1, keepdims=True)

    title_1 = Input(shape=(MAX_SEQUENCE_LENGTH,))
    title_2 = Input(shape=(MAX_SEQUENCE_LENGTH,))
    word_vec_sequence_1 = embedding_layer(title_1)  # Word embedding layer(fasttext)
    word_vec_sequence_2 = embedding_layer(title_2)  # Word embedding layer(fasttext)
    F = Bidirectional(LSTM(100))
    sentence_embedding_1 = F(word_vec_sequence_1)
    sentence_embedding_2 = F(word_vec_sequence_2)

    similarity = Lambda(cosine_distance)([sentence_embedding_1, sentence_embedding_2])
    similarity = Dense(5)(similarity)
    y_dash = Dense(5, activation='softmax')(similarity)
    model = Model(inputs=[title_1, title_2],  output=y_dash)

    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    model.fit([train_title_1, train_title_2], y)  # [train_title_1, train_title_2], y are respectively input titles and class label
    np.save('bilstm_weights.npy', F.get_weights())

å‰ã®ã‚¹ãƒ†ãƒƒãƒ—ã§å¦ç¿’ã—ãŸF(-)ã‚’æ–‡ã®Embeddingã¨ã—ã¦ä½¿ç”¨ã—ã¾ã™:

ã‚³ãƒ¼ãƒ‰ã‚’è¡¨ç¤ºã™ã‚‹

    from keras.models import Model
    from keras.layers import Embedding, LSTM, Input, Reshape, Lambda, Dense
    from keras.layers import Bidirectional
    import numpy as np

    title = Input(shape=(MAX_SEQUENCE_LENGTH,))
    word_embedding = embedding_layer(title)
    F = Bidirectional(LSTM(100))
    sentence_embeddding = F(word_embedding)
    sentence_embedding_model = Model(input=title, output=sentence_embedding)

    sentence_embedding_model.layers[2].trainable = False
    sentence_embedding_model.layers[2].set_weights(np.load('bilstm_weights.npy'))
    def sentence_embedding_bilstm_5c(text):
        txt_to_seq = keras_tokenizer.texts_to_sequences([mecab_tokenizer.parse(text)])
        padded_sequence =  sequence.pad_sequences(txt_to_seq,maxlen=MAX_SEQUENCE_LENGTH)
        return K.get_value(sentence_embedding_model(K.cast(padded_sequence,float32)))[0]

çµæžœ

ä»¥ä¸‹ã¯ã‚µãƒ¼ãƒ“ã‚¹ã«ãŠã‘ã‚‹åˆ©ç”¨çŽ‡ã§ã™ã€‚ä¾‹ãˆã°ã€3 out of 5 suggested ingredients matches actual ã¯ 5 å€‹ suggest ã—ãŸã†ã¡ 3 å€‹ãŒåˆ©ç”¨ã•ã‚ŒãŸå‰²åˆã§ã™ã€‚

	3 out of 5 suggested ingredients matches actual(%)	2 out of 5 suggested ingredients matches actual(%)
Average of word embeddings	53%	80%
Bi-LSTM Sentence Embeddings	50%	76%

Average of word embeddingsï¼ˆã“ã‚Œã¯Bag-of-Wordsã«ä¼¼ã¦ã„ã¾ã™ï¼‰ã¯Bi-LSTM Sentence Embeddingã‚ˆã‚Šã‚‚ã“ã®å•é¡Œã«é©ã—ã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯ã€ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã¯çŸã„ãƒ†ã‚ã‚¹ãƒˆã§ã‚ã‚‹ãŸã‚ã«ã€å˜èªžé †åºã®æƒ…å ±ã¯ææ–™ã‚’äºˆæ¸¬ã™ã‚‹ã®ã«ã¯ã‚ã¾ã‚Šå½¹ã«ç«‹ãŸãªã„ã‹ã‚‰ã ã¨æ€ã‚ã‚Œã¾ã™ã€‚

ã¾ã¨ã‚

ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã‹ã‚‰ææ–™ã‚’äºˆæ¸¬ã§ãã‚‹ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã‚Šã¾ã—ãŸã€‚

ã„ã‹ãŒã§ã—ãŸã§ã—ã‚‡ã†ã‹ã€‚ Cookpadã§ã¯ã€æ©Ÿæ¢°å¦ç¿’ã‚’ç”¨ã„ã¦æ–°ãŸãªã‚µãƒ¼ãƒ“ã‚¹ã‚’å‰µã‚Šå‡ºã—ã¦ã„ã‘ã‚‹æ–¹ã‚’å‹Ÿé›†ã—ã¦ã„ã¾ã™ã€‚ èˆˆå‘³ã®ã‚ã‚‹æ–¹ã¯ãœã²è©±ã‚’èžãã«éŠã³ã«æ¥ã¦ä¸‹ã•ã„ã€‚

ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰é–‹ç™ºè€…ãƒ–ãƒã‚°

ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ã‹ã‚‰ææ–™ã‚’äºˆæ¸¬ã™ã‚‹ðŸš€

è¦ç´„

ãƒ¢ãƒ‡ãƒ«ã¯ã©ã†ãªã£ã¦ã„ã‚‹ã‹

1.ã€€Embed

2. Search&Suggest (API Server)

Embeddingsã‚’å¦ç¿’ã™ã‚‹:

ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ãƒ‡ãƒ¼ã‚¿ã§Word Embeddingãƒ¢ãƒ‡ãƒ«ï¼ˆFasttextï¼‰ã‚’å¦ç¿’ã—ã¾ã™ã€‚

Sentence Embeddingãƒ¢ãƒ‡ãƒ«ã‚’å¦ç¿’ã—ã¾ã™ã€‚

çµæžœ

ã¾ã¨ã‚

è¦ç´„

ãƒ¢ãƒ‡ãƒ«ã¯ã©ã†ãªã£ã¦ã„ã‚‹ã‹

1.ã€€Embed

2. Search&Suggest (API Server)

Embeddingsã‚’å­¦ç¿’ã™ã‚‹:

ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ãƒ‡ãƒ¼ã‚¿ã§Word Embeddingãƒ¢ãƒ‡ãƒ«ï¼ˆFasttextï¼‰ã‚’å­¦ç¿’ã—ã¾ã™ã€‚

Sentence Embeddingãƒ¢ãƒ‡ãƒ«ã‚’å­¦ç¿’ã—ã¾ã™ã€‚

çµæžœ

ã¾ã¨ã‚

è¦ç´„

ãƒ¢ãƒ‡ãƒ«ã¯ã©ã†ãªã£ã¦ã„ã‚‹ã‹

Embeddingsã‚’å¦ç¿’ã™ã‚‹:

ãƒ¬ã‚·ãƒ”ã®ã‚¿ã‚¤ãƒˆãƒ«ãƒ‡ãƒ¼ã‚¿ã§Word Embeddingãƒ¢ãƒ‡ãƒ«ï¼ˆFasttextï¼‰ã‚’å¦ç¿’ã—ã¾ã™ã€‚

Sentence Embeddingãƒ¢ãƒ‡ãƒ«ã‚’å¦ç¿’ã—ã¾ã™ã€‚

çµæžœ

ã¾ã¨ã‚