夏目漱石・芥川龍之介・宮沢賢治・太宰治・江戸川乱歩の作品からTFの特徴量をSVMに入れて分類分けしてみた

SVM(サポートベクターマシン:教師あり学習)を使った課題の第二弾があったのでまたまた、processingで分析して遊んでました。
前回↓
matatsuna.hatenablog.com

実験方法

夏目漱石
gyazo.com
宮沢賢治
gyazo.com

  • 作品それぞれをkuromojiを用いて、形態素解析を行います
  • 形態素解析した結果から文章の出現頻度(TF)を求め、作者ごとの単語ベクトルを作成しSVMに入れます

gyazo.com

  • SVMがどれほど正しいかのテストをします

SVMに登録されてないそれぞれの作者の作品をランダムに18作品新たに準備して、どれぐらいの割合で正解できるかを検証しました。

結果

94.4%でした!!
これは完全にSVMで分類分けできます。

考察

間違えてしまった作品は太宰治の「緒方氏を殺した者」江戸川乱歩と判断してました。中身を読んでみるとかなり暗い内容になってました。確かに江戸川乱歩っぽい作品です。これは、納得してしまいました。

今後の展望

たくさんの作品を入れると文章に用いる単語の似た傾向を出すことができるかな~って思ってます。