Google Book Searchで遊んでみた

今日は、本をスキャンする技術(機械)にもの凄く詳しい若い友人と、久しぶりにランチを一緒にして楽しいひと時を過ごした。Google Book Search、Internet Archiveをはじめ、世界中の図書館に眠っている本たち、つまり人類の過去の叡知を、どんどんスキャンしてネット上のコンテンツとして取り込んで誰もがアクセスできるようにしてしまおうというプロジェクトが、いくつも存在する。
専門家の彼によると、4-5年という比較的短い期間で(何十年という単位ではなく)、かなりの書物がスキャンされてしまう計算らしい。僕が漠然と想像していたスピード感よりも早く物事が進んでいるようだ。
これまで「Google Book Search」(http://books.google.com/)なんてまだぜんぜん使い物にならないんだろう、と勝手に想像して、ブラブラ遊んだことなどあまりなかったのだが、彼の話を聞いて、ちょっと遊んでみようという気になった。
(1) Tocquevilleの「Democracy in America」
19世紀初頭に書かれたこの名著は、
http://books.google.com/books?vid=0vvyMbo202J0VdkyJt&id=J3KNXps_H98C&pg=PA1&lpg=PA1&dq=Tocqueville&as_brr=1
一ページごとページを繰って読むことができる。活字がスキャンされているので、とても読みやすい。サーチは「All Books」と「Full View Books」とに分かれていて、後者は著作権が切れているか出版社が許容しているか何かの理由で、全部ネット上で制約なしに読める。「Full View Books」の「Tocqueville」
http://books.google.com/books?q=Tocqueville&as_brr=1
は、「Tocqueville」という文字列を含む、さまざまな本のページに行ける。
(2) Minakata Kumagusu
「All Books」で、
http://books.google.com/books?q=Minakata+Kumagusu&btnG=Search+Books&as_brr=0
「Full View Books」だと一つだけ。
http://books.google.com/books?vid=0Qf6QWF3mBASCtxDCv&id=HTuNCsZYjMQC&pg=PA237&lpg=PA237&dq=Minakata+Kumagusu&as_brr=1
こんな論文が出てきた。
(3) Eugène Delacroix
「Full View Books」で、
http://books.google.com/books?q=Eug%C3%A8ne+Delacroix&btnG=Search+Books&as_brr=1
本屋での立ち読みがすごく効率よくできるような感覚だ。
(4) Homebrew computer Club
「All Books」で、
http://books.google.com/books?q=Homebrew+computer+Club&btnG=Search+Books&as_brr=0
これは(1)から(3)と違って、僕の専門領域に近いなので、けっこう一つ一つ見ていくと時が経つのを忘れた。ネットのコンテンツの場合、検索結果の「玉」と「石」をぱっぱとふるいわけて・・・という眺め方をするが、Book Searchで出てくるのが全部「本」だと、なんか少しずつでも全部に目を通したくなってくるのだ。
「Full View Books」で、
http://books.google.com/books?q=Homebrew+computer+Club&btnG=Search+Books&as_brr=1
「A History of the Personal Computer: The People and the Technology」という528ページの本と「The Rise of Open Source Licensing」という本は、最初から最後まで全部読めることがわかる。
(5) ARPAnet
「Full View Books」。
http://books.google.com/books?q=ARPANET&as_brr=1
皆「Full View」なので、該当ページから前後に動きながら、立ち読み感覚で楽しめる。


思ったより楽しく遊べた。ただし「件数表示」にはまだバグがあるみたいで、実際よりもかなり過剰な数字が出てくるのに注意。思いつく少し古い英語の言葉を入れて実験してみるとけっこう面白いかもしれない。
重い課題は、これからスキャンされる本が増え、あらゆる言葉に対する検索結果が増えたとき、どういうアルゴリズムで順位を確定するかだろう。
ただ、冒頭の友人の話を勘案すれば、2012-13年頃には、英語ベースの過去の書物はかなりの確率で、ネット上でアクセスできるようになっているんだろうな。
「新潮」誌で、作家の平野啓一郎氏と対談したときに、理系の知と違って、文系の知で大切なものはまだまだネット上に溢れかえっていない、と彼は問題提起した。でも、「次の十年」はずいぶん様子が違ってくるのだろうな。そんなことを、発展途上のGoogle Book Searchで遊びながら感じた。