米Googleは米国時間2010年12月16日、書籍本文検索サービス「Google Books」の視覚的分析ツール「Google Books Ngram Viewer」を発表した。膨大な書物のデータから使用語句の量的分析を行いグラフ表示するもので、同社のテストサイト「Google Labs」で試験的に公開する。また、Ngram Viewer用のデータセットをダウンロード可能な形で無償提供する。
Ngram Viewerは、長い年月の間にどのような語句が書物で頻繁に使われ、また使われなくなったか、隆盛と衰退を比較することができる。例えば「fax」「phone」「email」が1950年以降の書物にどれくらい登場するか、使用が増加するのはいつごろかなどを、視覚的に把握することができる(サンプルのグラフ表示)。
Googleは2004年以来、書籍などの出版物をスキャンし、世界で1500万冊以上をデジタル化した。データセットは、中国語、英語、フランス語、ドイツ語、ロシア語、スペイン語で書かれた520万冊から、5000億語を収録し、最大5語からなるフレーズも含む。
このデータセットは米ハーバード大学の研究プロジェクトをベースにしている。人文学研究の定性分析を補完し、革新技術の普及、若者の影響、名声のある職業、検閲の傾向など多岐にわたるテーマの洞察を深めるのに役立つとしている。Google Labsの専用サイトから入手できる。
[発表資料へ]