第1回 にこにこテキストマイニング勉強会(#nicoTextMining)に参加してきた

第1回 にこにこテキストマイニング勉強会に参加してきました。

AntiBayesian : 「テキストマイニングの歩き方」

すみません、遅刻して、入ってすぐ終わってしまいました。

内容としては、前回のTokyo.Rでの発表に近い感じだったのかなと思いました。

toilet_lunch : 「ゆるふわテキストマイニングをしてみよう」

資料 : http://toilet-lunch.sakura.ne.jp/nicoTextMining01.pdf

  • 評判分析のツールを作った
  • 何をしているのか
    • 入力されたセイン名でtwitterのログを検索
    • 検索された発言から、製品を評価しているらしいものを選択
    • 発言にポジティブらしさ、ネガティブらしさの点数をつける
    • 表示
  • 評価表現を使う
    • 物事に対する評価を表しているようなことば
    • 大きく、ポジティブ、ネガティブに分ける事が出来る
  • 評価表現辞書
    • 単語感情極性対応表
  • 当たり前だけどひどい精度
  • 何が悪かったか
    • ジャンルの限定が必要
    • 対象のテキストのクリーニング
      • Webのデータでは必須
    • 言語の困難さ
      • 否定表現、未知語、助詞の省略、複合的表現、表記ゆれ、複数の評価の混在
  • プログラミングの知識にとどまらず、言語学の知識も必要になってくる
  • 独自にやるより論文を見た方が良い

langstat : 「コピー&ペーストのみで始めるテキストマイニング超入門」

gepuro : 「初めてのnltk」

学生で、春休み!!

  • NLTKについて
    • 単純化
    • 一貫性
    • 拡張性
    • モジュール性
  • 文字化けとか直しました

bob3bob3 : 「アンケート自由回答のテキストマイニング事例」

今回の発表は、「お金ならあるよ!」って方が対象

資料 : http://www.ikic.co.jp/service/pdf/marketing_6.pdf

  • 商用のテキストマイニングツールがいっぱいある
  • Text Mining Studio
    • 「お値段が一番安いプリウスが買えるくらいとなっております」
  • 今回の発表は、2006年にやったもの。
    • 文部大臣に褒められたわけではないが、記事になるくらいにはなった
  • 楽しい食事ってどんな食事
    • アンケートとる
    • 単語出現頻度分析
      • ひらがな、カタカナ、漢字ぐらいは、ツールの内部でやってくれるが、バーベキューとBBQみたいなのは辞書で対応
    • 話題分析(ことばネットワーク)
    • 性別で単語出現頻度分析
      • 「楽しい」とか「久しぶり」が女性が多い
    • 特徴語分析
      • 「補完類似度」が便利
      • 女性は、感情表現が多い
      • 男性は、具体的なものが多い
    • コレスポンデンス分析
      • 縦横の軸の解釈は特にしない
      • 属性の関連性のみを見る
      • 多次元尺度法とかと同じ
    • 抽出された仮説
      • 「楽しい食事」であるためには、“何を食べるか”よりも“誰と食べるか”ということが大きな要因として働いているらしい。
      • そのため、「楽しい食事」のメニューとしてはコミュニケーションを促進させるようなものが選ばれやすいのではないか。

具体的な、適用例があってすごく良い発表でした。

まとめ

  • 第一回で80人超えとかすごい
  • あんちべさんがスーツだった
  • 全体的に、発表者の方の発表がうまく分かりやすかった。