デマをデマと見抜けない人はTwitterを使うのは難しい

  • Twitterにおけるデマ検出手法を論じた研究が,ついにEMNLP2011に出てきたので紹介します.
  • 論文:Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011]
  • Twitter上のデマに関する興味深い統計情報も幾つか含まれているので,興味のある方は一読されると良いかと思います.

概要

  • 噂と噂に関連するツイートを検出すると同時に,その噂の信頼度を推定
  • 様々な特徴量を用いて実験
  • ツイートの文面を使って分類器を作るだけで,高い精度が実現可能!
    • ただし,アノテートされたツイートを教師データとして使用

背景

  • マイクロブログ上で噂は急速に広まる
  • デマや誤情報は,企業にとって大きな障害となりうるので自動で特定したい
  • この研究では,以下の手順でデマや誤情報を検出する
    • 特定の噂に関して言及しているツイートを網羅的に取得 [Rumor Retrieval]
    • 噂をどのくらいの割合の人が信じているか(噂の信頼度)を推定 [Belief classification]

問題設定/手法

タスク1:Rumor Retrieval
  • 誤情報・デマを含むツイートを同定
  • 高いpresicion/recall率が求められる
    • 特定の噂に関してのツイート[presicion]を網羅的に[recall]取得したいため
    • 標準的なIR手法では不十分
タスク2:Belief Classification
  • タスク1で集めたツイートを,噂の支持度に応じて分類
    • 噂を信じているツイート
    • 噂に対し疑問を呈しているツイート
  • 「噂」という正解が曖昧なものに対する評判分析
    • こちらも手法を工夫する必要がある

利用したデータ

  • Twitter API + 正規表現(Regexp)で噂に関連するツイートを網羅的に取得
  • 教師データを作成するため,上で集めたツイートをアノテート (10400tweets)

手法

  • タスク1・2共にBayes Classifierによる尤度最大化
    • L1-regularized log-linear model [Andrew and Gao, 2007] + QWL-QN [Gao et al., 2007]
  • 用いる特徴量を色々変化させ,実験を行う
Content-based Features
  • 単語情報 [TXT1 : unigram] [TXT2 : bigram]
  • 品詞情報 (+HASHTAG/URL) [POS1 : unigram] [POS2 : bigram]
Network-based Features
  • RTした側のユーザーは,噂に対してPositiveかNegativeかという情報
  • RTされた側のユーザーは,噂に対してPositiveかNegativeかという情報
Twitter Specific Memes
  • Hashtag
  • URL [URL1 : unigram] [URL2 : bigram]

実験結果

  • Rumor Retrieval / Belief Classification共に,Content-based Featuresが高性能
    • F値 : ç´„95% (Rumor Retrieval) / 93.2% (Belief Classification)
    • 全特徴を入れて実験した場合も大体同じ結果
  • 教師データの数に応じてPresicionがどのように変化するかを実験 (Figure 2)
    • 教師データが全くない(新規のデマ検出)場合は,Presicionは約60%

関連研究

噂(デマ・誤情報含む)の検知と分析
  • マイクロブログ上の噂の分析 [Ratkiewicz et al.,2010]
  • 引用を用いたネット上の噂の同定 [Leskovec et al., 2009]
  • "Truthy"システム.誤情報を含むTwitter上の政治ネタの同定 [Ratkiewicz et al.,2010]
  • 2010年のチリ地震時のTwitterユーザー動向の分析 [Mendoza et al., 2010]
    • RTネットワークトポロジーから,ニュースと噂の情報伝達パターンの違いを分析
評判分析
  • 機械学習手法による映画評判分析 [Pang et al., 2002]
  • Usenetでのユーザー極性分析 [Hassan et al.,2010]
  • ニュースやブログ記事の評判スコア推測 [Godbole et al., 2007]
    • 自動P/N word検出
  • 評判分析サーベイ[Pang and Lee, 2008]
  • ミーム同定 [Leskovec et al., 2009]
Twitterデータマイニング
  • NLP. information diffusionに関連するTwitterデータを用いた研究 [Bifet and Frank. 2010]
  • 評判分析用のコーパス作成 [Pak and Paroubek, 2010]