エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
目的 文書をキーワードごとに分類する。概略図を以下に示す。 文書ファイルとキーワードファイルの類似... 目的 文書をキーワードごとに分類する。概略図を以下に示す。 文書ファイルとキーワードファイルの類似度を算出し、類似度に基づいて分類を行っている。 類似度の算出方法は以下のとおり。 ①N-gramによる類似度算出 ②形態素解析による類似度算出 ③センチメント分析による類似度算出 手法 RのRMeCabとsmdcパッケージを用いる。 smdcパッケージをCRANにアップロードするまでの苦労話は以前の記事をご覧ください。 Rパッケージを作ってCRANで公開する 1. データの準備 分類対象ドキュメントと分類キーワード群を用意する。 それぞれを、以下のようなディレクトリ構成で保持する。 C:/LyricsWorkspace |--Documents #分類対象ドキュメント | |--旅立ちの唄.txt | |--常套句.txt | |--シーソーゲーム.txt |--KeyWords #分類キーワ