Googleのエンジニアらが、かつてHewlett-Packard(HP)が開発した光学式文字認識(OCR)エンジンをよみがえらせた。
Googleは、HP Labsによって20年も前に開発され、1995年にお蔵入りとなった「Tesseract」のバグを修正し、数カ月前にオープンソースコミュニティに公開していたことを発表した。
Googleは、一般の人が作った面白いビデオから学術論文に至るまで、これまでデジタル化されてこなかった世界中のあらゆる情報をインデックス化し、体系立てて整理しようと取り組んできた。Tesseractのプロジェクトも、Googleの目指すこうしたゴールと合致する。Tesseractのようなオープンソース技術を使えば、エンジニアや公共機関などが、これまで紙で保存されてきたたくさんの情報をデジタル化していくことができる。
Googleはこの2年間、ネバダ州立大学ラスベガス校(UNLV)のエンジニアと共同で、このプロジェクトに取り組んできた。GoogleはUNLVの依頼を受け、ソフトウェアのバグ修正を行ったという。
Tesseractは1995年にUNLVが開催したコンテストで高評価を得たが、その後HPがOCR事業から撤退したことでお蔵入りとなっていた。
この記事は海外CNET Networks発のニュースを編集部が日本向けに編集したものです。海外CNET Networksの記事へ
CNET Japanの記事を毎朝メールでまとめ読み(無料)
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」