
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
PyCon2015で紹介されたjanome便利ですね。今年引退した名投手山本昌選手と各球団との関係をwikipediaの... PyCon2015で紹介されたjanome便利ですね。今年引退した名投手山本昌選手と各球団との関係をwikipediaの文章で類似度ソートしていきたいと思います。 今回やること wikipediaの文章から形態素解析器janome使って日本語の名詞を抽出し、TF-IDFで特徴ベクトルを抽出。各記事の特徴ベクトルで内積してcosθを取れば、0〜1の範囲でのエントリの類似度が取得できます。文章の類似度で記事をソートすれば完了です。 janomeが便利なところ mecabのインストールはpythonのバージョンへの依存性や辞書追加インストールが必要で、構築がとにかく手間です。pipでインストールできるjanomeは便利。形態素解析が必要になったとき手軽に挑戦できます。 janomeを使ってみる pip install janome from janome.tokenizer import Tok