われわれは情報の海に住み、企業間を行き交うデータストリームの奔流を浴び続けている。このデータを活用する必要があることは、誰もが知っている。問題はその方法だ。情報から価値を引き出すと同時に、将来モノのインターネット(IoT)から流れ込んでくる、これまで以上に高速で、大量で、詳細なデータストリームに備えるには、どうすればいいのだろうか。
アナリティクスを使えば過去の出来事から知見を得られるが、われわれは、手元にある情報に基づいて将来を予測する手段を必要としている。この顧客は詐欺師だろうか?ある配送用冷蔵トラックのコンプレッサーが故障するのは今日だろうか、それとも来週だろうか?今日の帰宅ルートは渋滞しているだろうか、それとも普段どおりだろうか?上海の同僚が今Skypeで言った言葉は何だったのだろうか?
こういった、答えが分からないように思える質問はたくさんある。しかしもし、今あるデータ、手に入れようとしているデータ、そしてより広い世界で手に入る大量のデータを活用すれば、かなり正確な答えを導き出せる。機械学習(ML)が活躍するのはこの領域だ。このテクノロジは、正しいビジネス上の判断を行うのに役立つ、予測的アナリティクスを提供するものであり、多くの場合そのプロセスを自動化することができる。実は、多くの人は意識せずに普段から機械学習ツールを使っている。スマートフォンやタブレットの予測入力や、「Siri」や「Cortana」の音声認識、スキャンした文書のOCR処理、あるいはFacebookのフィードなどがその例だ。
しかし、本当の恩恵は、Microsoft、Google、IBM、Amazonなどが提供するクラウド規模のサービスを利用して、機械学習を自分のツールやアプリケーションに組み込んだときに得られる。あるいは、FacebookのAI研究グループがテキスト分析を文脈の推測に使っているように、オープンソースのツールを使って自前のツールを作るという選択肢もある。このアプローチは、例えば顧客関係システムを構築する際に、電子メールメッセージの雰囲気を特定するのに利用できる。
Googleの「Prediction API」は、もっとも早くから提供されているクラウド規模の一般向けMLシステムの1つだ。大量の履歴データに基づいて傾向を予想するように設計されたPrediction APIは、手持ちのデータから知見を得られる、高速で比較的低価格なサービスだ。ほかのMLシステムでもそうだが、データからよい結果を得るには、よいモデルからスタートする必要がある。これは、トレーニングデータ用に大規模なサンプルデータセット(Prediction APIでは2.5Gバイトまで)を用意するのに加え、利用するデータに合わせて適切に設計されたカラム構造が必要であることを意味している。標準の予測モデルマークアップ言語(PMML)をサポートしているため、社内の機械学習で利用していたモデルをこのサービスに持ち込むこともできる。
Prediction APIはGoogleのほかのサービスを活用できるよう設計されており、同社の「BigQuery」や「Cloud Storage」プラットフォームと連携させることも可能だ。また、GoogleのPaaSである「App Engine」の開発ツールでもこのAPIがサポートされている。6カ月間の無料トライアルが提供されており、比較的簡単に予測アプリケーションの構築を始められるが、トライアルでは1日につき予測は100件まで、トレーニングデータは5Mバイトまでに制限されている。価格体系は比較的低価格で、予測1000件あたり50セントしかかからない。