情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜

しばらく情報検索に関わるブログ記事を書いていなかったけれど,「情報検索ことはじめ〜教科書編〜」から丸2年が経過し,Modern Information Retrievalの第二版が発売されたことで,2011年版を書いてみようと思ったので,ここ2年で発売された情報検索の教科書について書くことにする.

あの頃は検索を勉強し始めて8ヶ月のペーペーだったけれど,そのまま加算すると,どうやら2年8ヶ月になるらしい.「まるで成長していない…」とか某安西先生につぶやかれそうな気がするけれど,自分のことは棚に上げて,この2年間に新たに出版された教科書を紹介したいと思う.


さて,例によって若輩の主観と独断と偏見にまみれた記事になっています.誤りの指摘,違ったご意見があれば,コメント頂けると幸いです.

情報検索の教科書

この2年で出版された教科書的存在の文献は3冊.それぞれ紹介する.以下の3冊の共通点としては,IIRよりも検索エンジンの実装寄りの話題を含んでいること,この数年盛んに研究されているlearning to rankの話題をより多く含んでいることなどが挙げられる.

Information Retrieval: Implementing and Evaluating Search Engines (2010)

Information Retrieval: Implementing and Evaluating Search Engines (MIT Press)

Information Retrieval: Implementing and Evaluating Search Engines (MIT Press)

  • サポートページ
  • 新しい定番教科書になりそうな予感.
  • IR専門家による著書なのでバランスが良い.実装寄りの話をきちんと網羅している.
  • 個人的にはBM25Fを紹介しているあたりとかで胸がキュンとした.
    • 複数のフィールドがある文書を対象にある単語を検索する際に,従来のランキングモデルでは出現したフィールドの数だけ値を加算していたけれど,それ足しすぎだよね? ディスカウントしようよ,というのがBM25fの気持ち.詳しくは元論文を読んでください
  • リンク解析やスパム除去など,ウェブ検索システムに必要な話題が少な目な印象.この部分はモダイン2でカバーするか.
  • 愛称募集中.僕はブッチャー本と呼んでいます.
Search Engines: International Version: Information Retrieval in Practice (2009)

Information Retrieval in Practice

Information Retrieval in Practice

  • サポートページ
  • 新しい定番教科書の位置を狙えそうな予感,だったけれど,直後に出たブッチャー本によって,立ち位置が微妙になってしまった本
  • IIRを読んだ人には新しい話題は少ないと思う.
  • 敷居の低さという意味ではIIRよりも低いと思う.平易に書かれており,それぞれの話題にあまり深入りしていない.
  • よって,初めて検索エンジンの仕事に携わるようなエンジニアが読む一冊目としては一番おすすめできる.
  • IR研究者御用達? のオープンソース検索エンジンIndriのJava実装Galagoの使い方を交えて書かれている.
  • 愛称募集中.僕はクロフト本と呼んでいます.
Modern Information Retrieval: The Concepts and Technology behind Search (2nd edition) (2011)

Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition)

Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition)

  • サポートページ
    • 各章のスライドが用意されている
  • 長い沈黙をやぶり,ついに出たモダイン第2版!
  • 900ページ超,参考文献1800件はフリーザ様もびっくりの戦闘力.
  • 章ごとにそれぞれの専門家が執筆.
  • 圧倒的な存在感! 網羅率!
  • 上記2冊になくて,本書に含まれる話題はここらへん.
    • 2. User interfaces for search,
    • 14. Multimedia information retrieval
    • 15. Enterprise search
    • 16. Library systems
    • 17. Digital librariesという章がある
  • 付録AにOpen source search engineの比較がある.けれど情報は2009年時点のものだった.
  • 第1版でsuffix array系の話があったので,自己インデクス (self-indexing) の話題も扱うのかな? と思っていたら,意外にもそこらへんは攻めてこなかった.
  • あまりに分厚いので通読するのは大変..
  • 僕はモダイン2と呼ぶことにしました.

一番おすすめの教科書は??

上記三冊が出版されるまでならIIRと断言していたと思う.しかし,IIRが出版されてから早3年.IIR勉強会に参加し,通読したとても愛着のある本なので,IIRがいつまでも教科書NO.1でいてほしいという気持ちはあるのだけれど,時の流れと共により良い教科書が出るのも世の常である.

さて,というわけで2011年時点 (まだ1月だけれど) における私的IR教科書NO.1を決めたいと思う.

目的,専門分野によるけれど,情報検索の教科書として通読するのであれば以下の順番でおすすめしたい.

(おすすめ) ブッチャー本 > IIR > クロフト本 >> (越えられない壁) >> 和書 (おすすめしない)

個人的にはブッチャー本が一番お薦めである.実装寄りの話がきちんと書かれている.IR研究の動向を踏まえた最新の情報が載っている,という点においてIIRよりも優れている.

IIRはとてもわかりやすい英語で書かれている.けれど,著者がIRやfull-text searchあたりの専門家ではないため,どうしても実装寄りの話が抜けていたり,(2007年出版のため) 最新の研究成果に言及されていなかったりする.裏を返せば,情報検索自体を専門としない人にとっては,やっぱりIIRが一番良い教科書になる可能性もある.

クロフト本はこれらの中では一番さらっと読めると思うが,これだけ読むと情報が不足する (偏った知識を得てしまう) 可能性がある.特に気になったのは参考文献の少なさ.自著の論文を多く引用しているため,どうしてもCroft先生寄りの内容になっている.その点,IIRは非常に幅広く参考文献を引用しているので,偏りのない知識を得られると思っている.

モダイン2は重すぎる.こんな分厚い本を通読する根性があるのであれば,こんなブログ記事を読む必要はないので,ここでは教科書としておすすめしないことにした.リファレンスとして持っておくとよいと思う.

本当の最強コースは間違いなく,「引用文献も逐一チェックしながらモダイン2を通読すること」であるが,さすがにそれはインプットに偏りすぎている学習方法の気がするので,僕はきっとやらない (というかできない)

しばらく情報検索の教科書らしい教科書が日本語で出ていない.情報検索アルゴリズムから9年経過してしまっているため,日本語で情報検索の教科書的位置の本が長らく不在である.(リンク解析に限定すれば翻訳本の Google PageRankの数理 ―最強検索エンジンのランキング手法を求めて― がある.) 風の噂でIIRの翻訳が出るとか出ないとか? IIR翻訳に期待したい.

ただし,これらは僕自信の主観によるもので,人によって好みもあると思うので,実際に手にとって確認して頂きたい.

ランキング学習

僕自身が一番興味あるところなので,こちらもご紹介.

TF-IDFやPageRankのような複数スコアを組み合わせて高精度なランキングモデルを作成する技術をランキング学習 (learning to rank) と呼び,ここ数年盛んに研究されている.

上記教科書にもlearning to rankの項目があるけれど,どれも短い...現在出版されているランキング学習の本は上述のFoundations and Trends(R) in Information Retrievalシリーズのこれしかない.

Learning to Rank for Information Retrieval (2009)

上記Foundations and Trends(R) in Information Retrievalの一冊

Learning to Rank for Information Retrieval (Foundations and Trends(r) in Information Retrieval)

Learning to Rank for Information Retrieval (Foundations and Trends(r) in Information Retrieval)

  • 本分野の代表的な研究者Tie-Yan Liu氏によるチュートリアル資料のような本.
  • 今までの研究の俯瞰と,それぞれの文献へのリファレンスがあるので手がかりに良い
  • ただし,各手法について詳しく解説されているわけではないのでこれ一冊だけでは不十分だと思う.
  • あとは2011年時点における最新の研究についてはあまり載っていないので,最新の研究動向について把握しづらい
Learning to Rank for Information Retrieval (2011?)

今年の3月出版予定だそう! 同じくMSRAのTie-Yan Liu氏の著書.かなり胸熱!!

Learning to Rank for Information Retrieval

Learning to Rank for Information Retrieval

  • learning to rankで300ページという期待作.
  • 円高のうちに予約注文しちゃいましょう.

その他のIR本

実はそれ以外にも色々と出版されているのでご紹介.

Foundations and Trends(R) in Information Retrievalシリーズ

知る人ぞ知る.超充実チュートリアル本シリーズ.各分野の専門家がそれぞれのトピックについて書いたチュートリアル資料が本になりました.対象分野の知識を一通り学ぶことができる速習シリーズ.

出版済みのタイトルはこちら.タイトル見るだけで胸が熱くなる.上記教科書に掲載されていないトピックもあるので,足りない部分は自分で選択して購入しよう.唯一の難点は値段の高さ.100ページ前後の本一冊6000円程度する....

  • Test Collection Based Evaluation of Information Retrieval Systems
  • Web Crawling
  • Mining Query Logs: Turning Search Usage Data into Knowledge
  • The Probabilistic Relevance Model: BM25 and Beyond
  • Learning to Rank for Information Retrieval
  • Methods for Evaluating Interactive Information Retrieval Systems with Users
  • Concept-Based Video Retrieval
  • Statistical Language Models for Information Retrieval: A Critical Review
  • Opinion Mining and Sentiment Analysis
  • Email Spam Filtering: A Systematic Review
  • Authorship Attribution
  • Open-Domain Question-Answering
  • Music Retrieval: A Tutorial and Review

以下は出版予定

  • Adversarial Web Search
  • Federated Information Retrieval
  • Automatic Summarization
  • Retrieval and Browsing of Spoken Content
Search User Interfaces (2009)

Search User Interfaces

Search User Interfaces

  • 読んだことないので書評できません.
  • タイトルから察するに検索エンジンのインタフェース側の話題 (そのまんまやん)
  • 著者のHearst氏はIR分野で著名な研究者です.著者買いしても大丈夫のはず
The Turn (2005)

The Turn: Integration of Information Seeking and Retrieval in Context (The Information Retrieval Series)

The Turn: Integration of Information Seeking and Retrieval in Context (The Information Retrieval Series)

  • タイトルからは一瞬IR本だと思わないので,すっかり抜けていた.
  • 著者のひとりはDCG (NDCG) の評価指標などでよく引用されるあのJarvelin氏
  • 「情報を探索する」という観点を深堀りした本
  • 本棚の肥やしになっているので詳細は書けません..
検索エンジンはいかにして動くのか? (2009-) (2011-01-19追記)

山田浩之「検索エンジンはいかにして動くのか?」 (gihyo.jp)

  • 日本語文献ない,とか言ってすっかり失念していた (すみません)
  • オープンソース検索エンジンLux作者の山田浩之によるgihyo.jpの連載
  • タイトルのとおり検索エンジンの実装について詳しく書かれている
  • ここらへんについて書かれた日本語資料がないのでとても貴重

まとめ

というわけで今回はここ2年間で出版されたIR本と,前回紹介できなかった本について紹介した.

2011年現在,近年稀に見る円高が続いている.上記紹介した本は全て洋書なので,今こそが上記文献を安価で購入するチャンス!! みなさん,この円高を逃す手はないですよ!!