エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 以前、BERTを使って歌詞の文章ベクトルを算出し可視化する試みを行いました。BERTは優秀なんで... はじめに 以前、BERTを使って歌詞の文章ベクトルを算出し可視化する試みを行いました。BERTは優秀なんですが、入力できるトークン数が512に限られるため、長い文章のベクトル算出には向いていないんですよね。 今回は、上場企業約2,500社が有価証券報告書で書いている割と長文の文章について、Doc2Vecを使って文章ベクトルを算出し、あわせて、文章ベクトルから類似文書を検索してみました。 個人的には、BERTよりもDoc2Vecの方が納得感のいく結果を出している気がしています。 ここでは、文章ベクトルの算出方法・類似文書検索方法について、お伝えしていきたいと思います。 文章ベクトルのイメージ ①野球を観戦した ②サッカーの試合を見た ③犬の散歩にでかけた の3つの文章を2次元のベクトルに変換することを考えてみましょう。 文章の内容を考えると①と②が近く、③が少し離れているイメージですね。 こ