Googleの翻訳技術は、まったく別個のプロジェクトである同社のブラウザ「Google Chrome」や、さらにはオープンソースのスペルチェックパッケージ「Hunspell」を利用したその他のソフトウェアにまで、恩恵をもたらし始めた。
Chromeは、「WebKit」のスペルチェック機能とHunspellにある正しくつづられた単語の多言語ライブラリを組み合わせて、27言語のスペルチェックを提供している。しかしHunspellでは、広く使われている単語の多くが未収録のため、Googleは同社の翻訳技術を利用してそのギャップを埋め合わせた。
GoogleのプログラマーBrett Wilson氏とSiddhartha Chattopadhyay氏が米国時間2月11日付のブログ投稿で説明しているので、それを引用しよう。
Hunspellの辞書管理者はすばらしい仕事をやり遂げ、誰もが利用できる高品質の辞書を作り上げたが、どの辞書にもついてまわる問題として、収録漏れというものがある。新語が登場したり、固有名詞が一般的に利用されるようになったりする場合はとくにそうだ。われわれGoogleで働く者は、インターネットに関する知識を利用してこうした収録漏れを特定し、修正するのに有利な立場にある。Googleの翻訳チームは言語モデルを使って、それぞれの言語において最もよく使われる単語を整列させたリストを生成している。このリストをHunspellの辞書と照合して、各辞書に登場しない単語トップ1000語のリストを生成した。このリストには一般的な言葉が多数入っているが、よくある綴りの間違いも含まれている。後者を取り除くため、各リストをそれぞれの言語の専門家が検討した。全般的に固有名詞、さらには外来語についても、一般的な用法である限りは保持するように努めた。
Googleが辞書に追加した英単語には、「antivirus」「anime」「screensaver」「Mozilla」「Obama」「Wikipedia」などがある。
Googleはこうして辞書に収録した語を、Hunspellが採用しているオープンソースライセンスで公開している。「GNU General Public License(GPL)」「Lesser General Public License(LGPL)」「Mozilla Public License(MPL)」の3種類だ。Googleは、Chromeの開発者向けプレビュー最新版「2.0.160.0」で、19言語について新語を追加している。
オープンソースソフトウェアということで、変更を自由に利用できるほかのところでも、Googleによる成果の恩恵を受けることが可能だ。Hunspellのサイトによると、「Hunspellは『OpenOffice.org』、Mozillaの『Firefox 3』『Thunderbird』でデフォルトのスペルチェッカーとなっている」という。
この記事は海外CNET Networks発のニュースをシーネットネットワークスジャパン編集部が日本向けに編集したものです。海外CNET Networksの記事へ
CNET Japanの記事を毎朝メールでまとめ読み(無料)
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス