SlideShare a Scribd company logo
2014/01/11

第一回つくばデータマイニング勉強会
プログラムもアルゴリズム理解も不要な
機械学習テキストマイニング

KNIME及びTiny Text Minerを利用

from2001
今日利用する機械学習アルゴリズム
サポートベクターマシン、ニューラルネットワーク、ランダムフォレスト
をネットで調べると

この段階で、なんだか
挫折しそう。。。

2
今回の機械学習テキストマイニングLTの概要

ブログの文章を
テキストマイニングし
誰のブログかを判別する

今回対象とするのは
3
4
今日利用する機械学習アルゴリズム
サポートベクターマシン、ニューラルネットワーク、ランダムフォレスト
をネットで調べると

難しいことが書いてあって
くじけそうになる

5
今日はプログラムは一切使わず

KNIME
(the Konstanz Information Miner)

TTM
(Tiny Text Miner)
6
理解しておくべき概念1-機械学習

ブログの本文データ
7
理解しておくべき概念1-機械学習

人間がタグを付けます

加藤茶

安倍晋三

加藤茶

安倍晋三

大島優子

ブログの本文データ

教師データといいます
8
理解しておくべき概念1-機械学習

加藤茶

安倍晋三

加藤茶

安倍晋三

大島優子

学習させる

分類器
パターンを学習する

9
理解しておくべき概念1-機械学習

コレハ
オオシマユウコ
ノ ブログ

未知のブログ文章を分類できるようになる

分類器
10
理解しておくべき概念2-形態素解析
コンピューターが理解しやすい
ような形式に日本語を変換

歯磨けよ!風邪引くなよ!また明日!

分類器
!
歯磨けよ!風邪引く
なよ!また明日!

歯
3

明日
1

引く
1

風邪
1

磨ける
1

1

11
では実際にやってみる

12
①カンマ区切りデータを用意
1列名:タグ(誰のブログか)
2列目:本文(改行削除)

13
②形態素解析する

TTMにデータを渡す
と後は自動でやっ
てくれます

14
各語の出現件数表が出力されます

15
不必要な行・列を消します
16
このデータをKNIMEで機械学習させます

17
下記のフローを実装します

学習させる
75件を教師データに
150件のデータ

タグ付き
CSVデータ
を読み込む

学習済みモデル

データを
分割

分類

評価

のこり75件のタグ無
しデータ

18
簡単なので

実際に一緒にやってみましょう

19
KNIMEを使えば、簡単

20
他のアルゴリズムに
切り替えるのも簡単

サポートベクターマシン用Node

ニューラルネットワーク用Node

21
3人のブログは
機械学習で識別可能!

では、
22
お笑い

政治家

加藤茶

安倍晋三

アイドル

大島優子

指原莉乃

AKBが二人混ざっていても分類可能なのか?
23
AKB二人もきっちり識別!!!

Random Forest利用
24
おしまい

25

More Related Content

勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング