近デジのテキスト化について、@aobekaさんのつぶやきまとめ

国立国会図書館「近代デジタルライブラリー」のテキスト化に関する @aobeka さんのつぶやきをまとめてみました。 「日本語のテキスト化は難しい。けれど誰もが、そこに大きな可能性をみています。貴館が、足取り確かに、前進されますように。」という最後のつぶやきが心に残りました。
24
富田倫生 @aobeka

近代デジタルライブラリーの検索には、探したいものがヒットしない穴が生じていると気づきました。これから、細かな話を大量に連投し、お騒がせします。

2011-08-02 16:27:24
富田倫生 @aobeka

①国会図書館の「近代デジタルライブラリー」では、書籍の画像を、インターネット経由で参照できる。 http://t.co/pevojOY イメージの本文にはきかないが、書誌情報と目次は、テキスト化してあるので検索できる。

2011-08-02 16:29:53
富田倫生 @aobeka

②近デジに収録されている本は、書名や著者名で調べられる。日本十進分類法のデータもあるので、分野からも探せる。加えてテキスト化された目次を頼りに、「これについて書いてあるもの」といった探し方ができる。例えば「天皇機関説」でひくと、12件ヒットする。

2011-08-02 16:30:27
富田倫生 @aobeka

③私が関わっている青空文庫は、テキストでデジタル化している。本の中味全部を検索できるのは良いが、何しろ規模が小さい。近デジが57万冊で、その内の24万冊をインターネットで参照できるのに対し、作品単位で、大量の短いものを一と数えた大水増しを行ってもなお、1万にしかならない。

2011-08-02 16:31:09
富田倫生 @aobeka

④青空文庫では、近デジの本をもとに入力することがある。校正時も、底本探しが容易だ。ここにあれば、記載内容に疑問が生じても、すぐに確認できる。親本と呼んでいる、底本の底本があれば、さかのぼっての確認も可能。そんな調子で、これまでは、ただ便利に使わせてもらってきた。

2011-08-02 16:31:52
富田倫生 @aobeka

⑤その近デジの検索に疑問が生じ、これは是非、対処してもらいたいと思うようになった。きっかけは、「現代の図書館」に求められた原稿だ。「図書館における全文テキストデータの可能性について」を特集した、その2011年6月号が、ようやく出来上がって送られてきた。

2011-08-02 16:32:21
富田倫生 @aobeka

⑥特集のテーマは、国会図書館が去年10月から今年3月にかけておこなった、「全文テキスト化実証実験」を踏まえている。検索の日立に対し、テキスト作りを担当した日本IBMの高木啓伸さんによる「全文テキスト化の技術」は、共同校正システムCONCERTなど、成果の具体像を明確に伝えている。

2011-08-02 16:32:55
富田倫生 @aobeka

⑦同誌編集委員で企画にあたられた塩崎亮さんは後記に、「この特集が組めてとてもうれしい。「テキスト化」に絡む多様な話題をまとめて読める資料は、今のところほとんどないように思う」と書いている。同感。石川准、横田和章、阿辺川武、三瓶徹、山崎誠、山口雄仁、村田真の諸氏が執筆。

2011-08-02 16:33:26
富田倫生 @aobeka

⑧私は、「冊子からテキストへ――文字コードがもたらすものと強いるもの」と題して書いた。底本の文字をコードにうつす際、細かな字体差を前に戸惑うことがある。印刷された漢字はしんにょうが二点で作ってあるのに、フォントは一点。これで入れて良いのかなどと。そこに触れた。

2011-08-02 16:34:23
富田倫生 @aobeka

⑨良いか悪いかの答えは、実は規格の中に書いてある。第1第2水準の漢字などを定めた、青空文庫の使っているJIS X 0208では、しんにょうの一点、二点は区別されない。底本が二点でフォントは一点でも、そのコードで入れて良い。こうした約束事が、規格には200あまり定められている。

2011-08-02 16:35:19
富田倫生 @aobeka

⑩0208と、第3第4水準の漢字などを定めたJIS X 0213は、この約束事を、包摂規準と呼んでいる。両者の規準は多くで同じだが、一部に異なりがある。0208では、鴎と鷗は区別されない。0208の青空文庫でもそうしている。だが0213では、区別される。

2011-08-02 16:36:18
富田倫生 @aobeka

⑪青空文庫が始まったのは、1997年。当時は、0208で決められたものに、メーカーの独自拡張分だけが使えた。一方今は、Unicodeが常識的になっている。標準的なフォントは、日本で必要と想定された範囲に限られているが、それにしても使える文字は大きく広がった。

2011-08-02 16:36:47
富田倫生 @aobeka

⑫JIS同様、Unicodeも、字体差をある範囲でまとめている。統合と呼び名は違っているけれど。0208と0213では、ルールに一部異なりがあると書いた。日本の規格も下敷きの一つとなったUnicodeの統合ルールも、包摂をかなり引き継いでいるが、より大きな差異がある。

2011-08-02 16:37:32
富田倫生 @aobeka

⑬旧字の底本に「森鷗外の脚氣傳染病說」とあったとしよう。0208では、「森鴎外の脚氣傳染病説」と入力する。0213では、鷗を区別して「森鷗外の脚氣傳染病説」。一方Unicodeには說があるので、ここまで広げれば「森鷗外の脚氣傳染病說」となる。ああ、ややこしい。

2011-08-02 16:38:04
富田倫生 @aobeka

⑭0208では、入力できない文字がたくさん出てくる。そこは、明らかに不利だ。一方Unicodeなら、その問題を大幅に減らせる。ただ、日本のパソコンの標準は、JISをもとにできている。仮名漢字変換で說はでないし、フォントがなくて化けてしまったり、音声に変換できない文字も出てくる。

2011-08-02 16:38:59
富田倫生 @aobeka

⑮どの文字コードの範囲で作るかは、テキスト化の目的を意識しながら、熟慮するべきポイントだ。視覚障碍者も含めて広く利用してもらうことを第一に考えて、0213の範囲で作業する落としどころがある。もちろん、より広い範囲の文字を使って区別する考え方もありうる。

2011-08-02 16:39:45
富田倫生 @aobeka

⑯そして、どの範囲で作業するかが決まれば、底本のどの字を、どう入力するべきかが決まる。当初、近デジのテキスト化は、0208で始まった。それが途中で、UTF-8に変わった。切り替えで、扱えない文字が大幅に減ったが、「どのコードで入れるのが正解か」の答えも、そこで変わった。

2011-08-02 16:40:12
富田倫生 @aobeka

⑰青空文庫には、入力が終わって10年校正できない作品がある。非力の故だ。より大きなコードへの切り替えにメリットがあるのは承知しているが、そのためには、資料やツールの作り直しに加えて、何をどれで入れるかの見直しが必要になることも頭から離れない。

2011-08-02 16:40:43
富田倫生 @aobeka

⑱幅広く利用してもらうという点では、0208は最も堅い選択でもある。一方、近デジは、果敢にUTF-8への切り替えを行ったが、その変更によって、「どの文字をどのコードで入れるか」の答えが変わると意識されていたのか、疑問に思う。確認すると、0208の段階からすでに、対応が怪しい。

2011-08-02 16:41:17
富田倫生 @aobeka

⑲インターネット経由で参照できる近デジのものは、今のところ大半が旧字だ。画像では「學說」となっている。0208には新旧の学と學がともにある。目次の「學」は學で入れるのが常識的に思える。検索結果からは、底本の画像に行き着けるのであたってみると、学で入力したものが散見される。

2011-08-02 16:42:07
富田倫生 @aobeka

⑳0208では、「鴎外」で良い。0213なら「鷗外」。UTF-8では、0213がカバーされているから、後者に切り替わっているかといえば、大半が鴎のままだ。ただ、JISの範囲内での異体字の入れ替わりについては、違和感はあるが、実害はほとんどない。

2011-08-02 16:42:35
富田倫生 @aobeka

㉑なぜって、検索システムが異体字をカバーしているから。学と入力されたものも學も、学學の双方の検索結果にでてくる。鴎鷗も同様。学と學、鴎と鷗の双方のヒット数は、同じになる。底本のページ画像に導くという用途は、十分満たされている。JISの範囲の異体字に関しては。

2011-08-02 16:43:23
富田倫生 @aobeka

㉒だが、UTF-8の切り替えで使えるようになった、JISにない異体字では、双方の検索結果をまとめる処理が行われていない。説と說は関連付けられておらず、検索上は別字扱いになっている。にもかかわらず、文字コード切り替え後、底本の「說」の多くが、說で入れられるようになった。

2011-08-02 16:43:50
富田倫生 @aobeka

㉓その結果、近デジの検索には、穴が生じた。あなたのパソコンで入力すると、「天皇機関説」と入る。「天皇機關説」とも入れられる、関關はJISの範囲の異体字なので、まとめ処理が効いて漏れは生じない。だが說でテキスト化されたものは、これで検索したのではヒットしない。

2011-08-02 16:44:39
富田倫生 @aobeka

㉔この穴は、説說だけに生じているのではない。兌と兑を部分字体としてもつパターンだけにも限られない。青と靑、高と髙、内と內など、みんな別字扱いだ。

2011-08-02 16:45:10
まとめたひと