サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
bookscanner.hatenadiary.org
梅田さんと話をして、米国では電子化が着々と進んでいるのに、日本ではあまり知られていないことに気づいた。だから、日本向けに、米国の電子化状況をお知らせしようと思う。ただ、ブログというのは初めてなので、いろんな機能について、試しながら。実は、まだ、トラックバックというものが何なのか、いまいち理解できていない。 初めてなので、挨拶代わりに、私のお気に入りのスキャナについて、ご紹介。 その名も、Scantastic 3000b! 詳しくは、こちらを。 おそらく何の解説も、英文を読む必要もなく、写真をみれば一目瞭然。 日本のマイクロフィルム業者を訪問すると、結構、みんな自作マシンを持っている。企業秘密だから、誰も公開しようとしないけど、すごくおもしろい。どこかの会場に一同に集めて、展示会でもやればいいのに。私が愛視聴しているカナダの番組でやってくれないかな。ちなみにこの番組はthatswhyさんによ
突然ですが、新天地へ向け、出発でーす。というわけで、bookscanner記は、終了でーす。 みなさん、これまでいろいろとありがとう。またいつか、どこかで、別な「マニアック(ニッチ)な」もんを書きはじめるかもしんないので、発見したら、お付き合いしてね。トピックは違えど、書きっぷりは一緒にすんよ。 というわけで、最後に何を言いたいのかっていうと、ありきたりなんだけど、 コロンブスのアメリカ発見について、そもそも彼の偉大な点はどこにあるか・・・ それは西回りのルートでインドへ旅行するのに、地球が球形であることを利用しようというアイディアではなかった・・・このアイディアはすでにほかの人々によって考えられたものであった・・・ 彼の探検の慎重な準備、船の専門的な装備などということでもなかった。それらのことは、ほかの人でもやろうとすればやれたに違いない。 そうではなくて、この発見的航海で最も困難であっ
GBS関連のまとめ記事が、最近増えてきた。かなりあやしいー。何かたくらんでる。 というわけで、今日は、一番最近のまとめ記事をご紹介。 『Google Book Search Libraries and Their Digital Copies』 by Jill E. Grogg, Electronic Resources Librarian, The University of Alabama Libraries and Beth Ashmore, Cataloging Librarian, Samford University http://www.infotoday.com/searcher/apr07/Grogg_Ashmore.shtml まず、GBSに参加してる図書館ってどこだっけ?最初は5つだけだったから、全部覚えてたけど、どんどん増えて、今じゃ、一体いくつあんのかさえ、分から
(ちなみに、日本は4月1日だけど、アメリカはまだ3月31日なんで、下記内容は、ウソじゃな〜い。) 「あるわけないけど1億円あったらどうする?」(http://www.1oku-life.com/)ってなサイトがある。ちなみに、アメリカで90万ドル(約1億円)を銀行預金したら、毎年45,000ドル(500万円くらい)の利子がくっついてくんので、家族4人、豪遊できる(かも)。 そんなことはさておき、本の電子化の話をしましょ。しかも、1億円プロジェクトのこと。 Google Book Searchは秘密ばっかでつまんない。なーにも教えてくんない。ケチ。 逆に、Internet Archive系列のOpen Content Allianceは、なーんでも話をしちゃう。太っ腹。(でも、あんまし誰も詮索しない。派手さにかける。) 関係者の人が、ぺらぺら、ぺらぺら、あっちこっちでしゃべってんのに、誰も詮
むかーしに、「ネットで「本」を読みますか?」ってなことで、いろんな人が、いろんなこと言ってた。 http://slashdot.jp/askslashdot/article.pl?sid=04/09/25/083204 とりあえず、これは「ネット読書」に関する古典だと思ってるよ。必読。 あれから、ずんどこ時代はかわり、みんなは今、果たして「ネットで「本」を読む」んかな? まぁ、さっきのSlashdot記事をぜーんぶ読めば、たいていの、賛成・反対意見はモーラされてんので、とりあえず一安心。 ところが、こーんなところで安心して、油売ってる場合じゃない。時代はかわった(らしい)。 何が変わったかって言うと、今ネットで本を読まん理由があるとすっと、それはもはや、「モニタが見づれー」とか「電池がどーのこーの」なんて問題じゃなくなってる(面がある)。 そんなわけで、「ネットで本」に関する「2007年の
前回、Amazonが「Citation」ってな感じで、本のパクり関係を教えてくれる、って話をした。これって、Amazonの商売の面で言うと、新たな「リコメンド」機能だよね。 そんで、リコメンドつながりってことで、 http://www.newscientisttech.com/article/dn10849-wikipedia-links-used-to-build-smart-reading-lists.html この記事の中で、米国コーネル大学のJon Kleinbergさんが、 "One can try to exploit a different analogy, viewing Wikipedia as a system where many editors express interest in topics by editing pages," he says. "In th
前に、本の電子化の「あっち側」ってことで、電子化した画像(+OCRデータ)使って、何やりたいのか、ってのを少し考えた。 http://d.hatena.ne.jp/bookscanner/20060814 一方、「こっち側」の話は、要はインターフェースの問題だよね。見やすいよーに、ってこと。でも、何度か言ってるけど、こんなのおもろくもなんともない。所詮、「みにくい」んだよね。どーんなにがんばったって。 だから、やっぱおもろいのは、「あっち側」。 そんで「あっち側」で、アメリカ(あたり)の優秀(かもしんない)頭脳がたーくさん集まって、血眼になって、何をゴソゴソやってんのか、っちゅうと、 「ある本に違う本を読ませて、自分の中の文章がどこに出てくんのか、自分の中の文章がどっから来たのかってのを探してる」わけ。そんなことして、何になんのか、ってのは、また近い将来詳しく見ていきたいけど、とりあえず、
今日は、ユーザーインターフェースについて、考えましょ。(人間が読むために電子化してんじゃないんだけど、それでも、どーせなら読んでみたいよ、ってのが世の常。そんで、読む以上、読みやすいよーにせんとあかんわけ。だから、なにげに、インターフェースは重要だよん。) http://www.flib.jp/ってのがあるでしょ。これって、雑誌とかがタダで見れるので、得した気分。でも、ひとつだけ、疑問。ページのめくる音ってホントーに必要かな?その前につけなきゃいかん機能があるんではないかな。 まぁ、何はともあれ、このflibってのは、カレントを、便利に見せましょ、ってインターフェースね。開発途上のシステムということで、多少の問題を大目に見たとしても、デキが悪い(よーな気がする)。関係者の方、怒らないでね。 私のオススメを紹介しましょ。こっちはアーカイブの閲覧用インターフェースね。 http://archi
(アップする順番がめっちゃくちゃになってきたので、書くぞ!と宣言したもんが、いつ出現するのか、分からん状態になってる。あしからず。) 今日は、画像のフォーマットの話をしましょ。 前にhttp://d.hatena.ne.jp/bookscanner/20060815/で書いたんだけど、 本をスキャンしたとき、大切なことがある。「最低でも2種類のデータを作り、貯めておくこと。」 ひとつ目のデータは、マスターと呼ばれ、できるだけきれいな画像。 ふたつ目のデータは、アクセスと呼ばれ、ネットとかで見て、見苦しくない程度に圧縮した画像。 ってなわけ。 そんで、 現在の主流: マスター:TIFF(圧縮なし) アクセス:JPEGかPDF なんだけど、JPEG 2000はどーなのよ、ってことが、長い間、業界内でくすぶってるわけ。(念のため注:JPEGとJPEG 2000は名前が似てるけど、違うもん。) そ
(必読)ニューヨークタイムズっていう有名な新聞に、『History, Digitized (and Abridged)』ってなタイトルの記事がでてたよ。http://www.nytimes.com/2007/03/10/business/yourmoney/11archive.html?ex=1331355600&en=ac8d2f50c8dfc12d&ei=5124&partner=permalink&exprod=permalink 今日は、その中から一つ。(明日も、もう一つ。(時差の関係上、あさってになっちゃったけど)) この図をみよー。クリックすれば、元のおおきなやつ見れるよ。 右上の方を見ると、Mission Impossibleってコーナーがあるでしょ。 そこによると、米国公文書館(The National Archive)には、90億点の「TEXT RECORDS(書類みたい
前に、スキャンされたデータは、画像派/文字派/しかたなく画像派に分かれる、って話をした。 http://d.hatena.ne.jp/bookscanner/20070222/p1 http://d.hatena.ne.jp/bookscanner/20070223/p1 (ご本人はどー思ってんのか知んないけど)日本の代表的「しかたなく画像派」は、 岡島昭浩さんの運営する「うわづら文庫」かな。 主人の岡島さん曰く(http://www.let.osaka-u.ac.jp/~okajima/uwazura.html)、うわづら文庫 (別名「責空文庫」)というのは、 青空文庫への敬意を表した命名です。青空文庫がテキストファイルを提供し、さまざまな環境で読めるのに対し、この「うわづら文庫」はテキストではなく画像で、すなわち上面だけのものだ、という意味です。(別名の「責空文庫」(せめぞらぶんこ)と
昨日、アベブのブログに載ってた「50万冊の本を捨てちゃって、みんなから攻められてる市政府」てのを紹介したけど、ちょっと思うところあって、も少し詳しく伝えておくね。 これは、捨てられちゃった本をバックに(記念)撮影してる元持ち主(経営してた古本屋が倒産しちゃった人ね)。*1 http://www.cyberpresse.ca/article/20070213/CPACTUALITES/702130568/より拝借 復習しておくけど、話としては、 古本屋が家賃払えなくて追い出された。そんとき、残された50万冊の本を市が回収して、一時保管してたんだけど、引き取ってくれそーな人がいないので、捨てた。そしたら、環境団体が「なんで、リサイクルに回さないんだ!」って怒ったらしい。他にも、「学校とかに寄付しろよ」とか文句言われてるらしい。 ということ。 どんくらい怒ってるかっていうと、http://car
日本でも知ってる人が多いだろーけど、「古本探すなら、Abebooks!」(http://www.abebooks.com/) このアベブ*1に関連して、彼らのブログを知ってる? 本に関して、いろいろとおもろいことを書いてんだけど、いくつか最近のもんを紹介しておきましょ。http://abebooks.wordpress.com/ まず、2月14日の「500,000 used books trashed」によると、古本屋が家賃払えなくて追い出された。そんとき、残された50万冊の本を市が回収して、一時保管してたんだけど、引き取ってくれそーな人がいないので、捨てた。そしたら、環境団体が「なんで、リサイクルに回さないんだ!」って怒ったらしい。他にも、「学校とかに寄付しろよ」とか文句言われてるらしい。 元:http://www.canada.com/montrealgazette/news/stor
*1 電子化プロジェクトの規模に関して、3つくらいの分け方があるよ。 並 (普通、何もつけず、"Digitization") 大 ("Large Scale Digitization") 特大 ("Mass Digitization") おおざっぱに考えれば、 並:100冊くらい 大:10,000冊くらい 特大:1,000,000冊くらい ってな感じなので、適当に分類しといてね。*2 そんで、規模に関して、勘違いされがちなのが、コストのこと。かなりおおざっぱに理解すっため、かなり極端な話をすっと、「プロジェクトの規模に関係なく、総予算は変わらん」わけ。 つまり、 並:100万ドルくらい 大:100万ドルくらい 特大:100万ドルくらい となる。 なんでかっていうと、「並プロジェクトでは、たった100冊しかスキャンできないんだから、スキャン対象本は、厳選に厳選を重ねた挙句、さらに厳選をして、
前回、画像派/文字派って区別ができる、って話をした。 そんで、画像派の特徴は「画像でなきゃ意味がない」ってところにあって、かなりすっきりしてんだよね。 ところが問題は、文字派で起こるわけ。 電子化の過程で、文字派が直面する問題ってのは2つあって、 手作業による文字入力ってはかなり大変で、疲れちゃう かといって、OCRってのも、結構あてにならん ということ。 ならば、出版社からデータをもらいたいところだけど、Y氏によると、 書籍の製作過程が、ほとんど電子化されていると言っても実はそのデータが残っていない。また残っていてもそこから電子書籍をつくるのは大変な苦労がかかる。外字の問題もあるしテキストデータの吸い出しにも問題がある。それでは本を電子化するまでで息切れを起してしまいます。*1 ってな感じ。 こんなもろもろの事情から、「本当は文字データとしてやりたいんだけど、しかたないから、画像でがまん
電子化されたデータに関連して、2つのグループがある。画像派と文字派。とりあえず、簡単なところから、攻略していきましょ。 画像派ってのは、本を電子化するときに、画像としてとっておくことに意味があるケース。例を2つほどみてみましょ。 一つ目は、ミズーリー州立植物園が、植物の挿絵なんかを、普通の名前(「チューリップ」とかふつうにみんなが呼ぶ名前)と、学術名(「Tulipa sylvestris」みたいによーわからん長い名前)の両方から検索できるよーにした、ってプロジェクト。この場合、単純明快、画像が重要だよね。 http://www.illustratedgarden.org/mobot/rarebooks/page.asp?relation=QL551G3S651797V1&identifier=0074 二つ目は、日本の明星大学がやってるプロジェクトで、シェークスピアのフォリオを電子化してる
「本の電子化」ってのは、ある意味ブームだから、みんな、なんとなく分かってる。でも、「なんとなく」だから、いろんなことがごっちゃまぜになってて、ときたま、混乱してるよーに見える人がいるよ。 今回から数回にわたって、「電子化」にまつわる分類を、いくつか紹介すんね。いつものごとく、厳密さよりも、分かりやすさを優先してんので、大きな心で受け止めてね。そんで、少しでも混乱が晴れてくれればいいんだけど、もし余計混乱しちゃったら、カンベンね。 今日は、タイトルどおり、カレントとアーカイブ。 「本の電子化」と言っても、二つあって、カレントとアーカイブ。言い換えると、「電子形態での出版」と「既存本の電子コピー作成」かな。 ってのが、最近の口癖。口にタコができた。 この資料の図を見ると、わかりやすいよーな気がするよ。(本じゃなくて、学術雑誌についてだけどね。) かなり、おおざっぱに言えば、これから出すもんは、
『ブログ発!カバーの色で検索するOPAC』 http://www.dap.ndl.go.jp/ca/modules/cae/item.php?itemid=619 ってことで、色で本を検索しよーって話が進行中。 国会図書館の情報キャッチの早さにはタマげたんだけど、さらに驚いたのは、 「表紙がこういう色で・・・」という表現で,図書の検索を依頼された経験を持つ図書館員は,少なくないだろう。 という出だし部分。そんなことになってたなんて、知らんかった。 結構おーきな衝撃うけて、そんで思い出したのが、「巨乳史」を語るmmpoloさん。彼が前に、「題名の分からない本」というエントリーで、 最後のシーンだけ覚えていて、失恋した青年が海中にやっと頭を出している岩に座ってじっとしている。やがて潮が満ちてきて青年は座っている岩もろとも海中に没するという話だった。 (中略) 誰かご存じの方がおられたら教えてほ
最初に、「図書館がまだまだイケてる33の理由」*1ってのを読んだとき、10番目くらいまで律儀に読んで、「ずいぶんと長いな。しかも、図書館の存亡に結びつかん項目もあったり、前後のつながりがよー分からんもんが混じったりしてんな。Will Shermanさんってのは、何モンだ?」って思って、読むの止めちゃった。最近、飛行機ん中で暇だったから、読んでみたよ。 そんで、感想としては、こんな感じ。 1.本の電子化に絡んで、図書館がなくならん理由はたった1つ。「だって、電子化してる側が、そのつもりでやってないもん。」 図書館の代わりになるよーなもんを作らんといかんとしたら、もうちょっと違うことせんといかんわけ。はなっから、図書館の代替だとは思ってないのはもちろん、図書館の補完だとも思ってないよーな気がすんのは、私だけかしらん?電子化組が図書館の扉をたたいてんのは、そこに本がいっぱいあるから。それだけだよ
旅から帰ってきたよ。ただいま。 さっそく、こちらをご覧あれ。 http://161.112.232.18/hotlinks.php 「ちょっと多すぎて、数える気がしないなー」と思いつつ、数えたよ。さっきだと、444個あった。本人いわく、466個あるっていうんだけど、444しかないよな。ただ、日々是変わるため、明日はもう違うかも。*1 これは、あるひまな人*2が、図書館ってのに、ひろーい意味で関係ありそなブログを集めてるもんだよ。 そんでもって、こちらが、この大集合のタグクラウドなんだって。 http://161.112.232.18/hotstuff.php 緑で書いてあんのは、過去にあんまし使われてない言葉なんだそーで、作った本人曰く、「緑になってるやつは、新しいトレンドかもしんないぜ」ってことらしい。 というわけで、結局何が言いたいのかっていうと、「大半のタグは、意味ねぇー。なんだよ、
(前回からの続きね。) bookscanner検察官: 「ところで、この資料によると、Questia社はあのケネス・レイさんと関係があんだよね?」 弁護士: 「異議あり!本件とは関係ないでしょ。」 bookscanner検察官: 「関係ないんだけど、ちょっと聞いてみたかっただけ。なので質問は以上。」 裁判長: 「次に、弁護士さん、どうぞ。」 弁護士: 「Williamsさん、ずばり聞くけど、あんたんとこは、なんで失敗しちゃったの?」 Williamsさん: 「バブル崩壊が、想定外だったよ。*1」 通訳: 「・・・」 弁護士: 「もっと具体的に言って。」 Williamsさん: 「2001年半ばの段階で、うちらは、1億ドルの大金と、30ヶ月という時間を投資してたんだよ。そんなことできる会社なんて、他にはありゃせんよ。つまり、独壇場だったんよ。*2」 通訳: 「・・・」 弁護士: 「Willi
*1 bookscanner検察官: 「証人を呼んでもいい?」 裁判長: 「誰?」 bookscanner検察官: 「Questia社のCEOやってるTroy Williamsさんでーす。」 裁判長: 「いいよ。」 bookscanner検察官: 「Williamsさん、あなたの会社は何してんの?」 Williamsさん: 「まぁ、とりあえず、この記事でも読んでください。」 ヒューストンを拠点とするQuestiaは、学者やJohn Wiley and Sonsなどの教科書出版社を集め、その出版物をウェブ上に掲載している。個人の場合、月額20ドルまたは年額100ドルの購読料を支払うことで、専門家が査読した論文や教科書などの学術出版物にオンライン上でフルにアクセスできる。*2 bookscanner検察官: 「そんで、何冊くらいスキャンしてあんの?」 Williamsさん: 「6万5000冊く
2006年3月に、米国「本の電子化」教の総本山であるミシガン大学で、集会が開かれた。その様子を見たい人は、http://www.lib.umich.edu/mdp/symposium/webcast.htmlに行けば、ぜーんぶ見れるよ。長いけどね。 その集会をまとめた報告書なるもんも存在してて、『Mass Digitization:Implications for Information Policy』ってタイトルで、http://www.nclis.gov/digitization/MassDigitizationSymposium-Report.pdfで手に入るよ。「本の電子化が進んでるんだけど、これってやっぱり情報政策に影響するよね。どんな影響が出るか、みんなで話し合ったので、それをまとめておいたよ」って内容。 さて、今日は、そのながーい集会で行われた数ある「説教」の中から、ひとつだ
「インターネット上の情報は玉石混交だからね」ってのはよく聞く話。 「だから、玉を選び出してくるツールが必要なんよ」ってのもよく聞く話。 ここで終わってれば、ハッピーだったんだけど、ちょっぴし、やっかいなことになった。 Dominique Numakuraさんってな人がいて、こんな記事を書いている。 http://www.emsnow.com/npps/story.cfm?ID=24326 まぁ、簡単に言えば、こういうこと(らしい)。*1 ある市場調査会社の報告によれば、マイクロソフトのXboxは、1台あたり76ドルくらいの儲けなんだそうだ。一方、ソニーのプレステ3は、1台あたり300ドルくらい赤字なんだそーだ。 ゲーム業界ってのは、ハードで損しちゃっても、ソフトで儲けるからいいもんね、ってな噂があるらしい。 でも、おい、こらっ、待てよ!1台あたり300ドルの損ってのは、あまりにも大きくねぇ
最近の本とかを電子化しよーとすると、著作権の問題で、出版社・作家組合と揉めるでしょ。 かといって、著作権なんて、とーの昔に切れてるか、そんなもんはなっからありゃしないような、「古文書」みたいなもんを電子化しようとすると、また別の揉め事が発生しちゃう。「兎角に人の世は住みにくい。」 どんなことになってるかっちゅうと、 1月第2週になって、電子化業界では、ちょいとしたニュースが流れた。(おそらく、世間一般には、たいしたニュースだとは思われん類。) 1月12日のカレントアウェアネスを見ると、 米国公文書館(NARA)はFootnote社と協定を締結し、NARAが所蔵する公文書のうち、約4,500万ページを電子化して、Footnote社のサーバー上で公開することを発表しました。 ってな感じ。普通の本に換算すると、約15万冊くらいね。結構大きな量だね。 Footnote社のサービスってもんが、どんな
昨日紹介したとおり、Amazonの「Search Inside the Book(なか見!検索)」の「中身」を作ってる会社は、Innodata Isogen社ってとこね。長い名前だけど、Innodataって会社と、Isogenって会社がくっついてできたので、日本の大きな銀行みたいに、こんな長ーい名前をもってるわけ。 名前はさておき、 この会社は、一体全体、どーやってスキャンしたの?って話。 この会社がケーススタディってのを公開してて、「Online Retailer Launches New Product Initiative To Let Customers Search Books Online」ってタイトルで紹介してる。Amazonって名前は使ってないんだけど、Amazonのことね。 http://www.innodata-isogen.com/knowledge_center/c
Bibliographic Amnesiaってのが、日本語で何て訳されてんのか、よーわからん。簡単に言えば、「へぇー、昔の本にすでに書かれてたのね」ってこと。 例をみてみましょ。 http://www.infotoday.com/online/sep03/adams.shtmlで、Stephen Adamsさんは、 There has been much interest recently in so-called "economy-class syndrome," a form of deep-vein thrombosis (DVT) apparently linked to sitting for long periods in cramped conditions, such as on long-haul aircraft flights. A letter noted the
昨日、「本って前から読めばタクソ、後ろから読めばフォクソだね」って書いたんだけど、なんでそんなこと書いたかって言うと、ちょっと「違和感」を抱えたまま、年越したから。大晦日、除夜の鐘(http://www.jodo.or.jp/joya/)を60回くらいつっついてみたけど、「違和感」は消えんかった。 その「違和感」の源といえば、 三上さんが2006年12月29日に書いたこれ。http://d.hatena.ne.jp/elmikamino/20061229/1167384532 本を読むことは非常に複雑な経験であると感じている。普通の「本を読む」のイメージは全文検索に近いかもしれないが、・・・ とあって、何かがひっかかる、ってな気持ちになった。 年明けて、除夜の鐘を残り48回つっつきながら、いろいろ考えた末、こーいうことになった。 「パソコンにとって、全文検索ってのは、普通に本を読む*1こと
国際日本文化研究センターってとこの山田さんが中心になって、「古事類苑」っていう古ーい百科事典を電子化してんだけど、約7万ページのスキャンは終わったらしい。今、一生懸命、文字入力をしてるんだって。がんばって! 情報処理学会での研究報告(http://www.nichibun.ac.jp/~shoji/archives/CH-72-6.pdf)によると、 プロジェクトの概要は、こういうことらしい。 『古事類苑』は,明治政府の一大プロジェクトとして明治12 年(1879) に編纂がはじまり,明治29 年(1896) から大正3年(1914) にかけて出版された,本文1,000 巻,和装本で350 冊,洋装本で51冊の大百科事典である.そこには,前近代の文化概念について,明治以前のあらゆる文献からの引用が掲載されており,人文科学研究を行ううえでたいへん有用な事典として,いまでも利用されている.この
次のページ
このページを最初にブックマークしてみませんか?
『bookscanner記』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く