最近、米国で開催されるクラウドコンピューティング関連のカンファレンスや雑誌/ブログ記事などで「Big Data」という単語を目にする機会が増えた。Big Dataとは文字通り「巨大なデータ」という意味だ。いま、「Hadoop」のような新技術に注目が集まるのは、巨大データと格闘する企業が増えているからだという。
Hadoopについてはそろそろ説明は不要かも知れないが、念のためにおさらいしておこう。Hadoopとは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトだ。複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデータを高速に処理できる(関連記事:ヤフーを変え始めたHadoop)。
日経コンピュータ2010年4月28日号のレポート記事「リアルタイムに近づくバッチ処理」でも取り上げたが、このHadoopを業務システムで採用する企業が、米国はもちろん日本でも増えている。ヤフーや楽天、クックパッドのようなネット企業だけはない。三菱東京UFJ銀行も2010年4月から、Hadoopを使ったバッチ処理フレームワークの検証を始めた。将来的には口座の「値洗い(時価による再評価)処理」などに、Hadoopを活用する予定だ。
Hadoopが人気なのは、テラ~ペタバイトクラスのデータ処理を、現実的な(つまりは安価な)コストで実現できるからだ。「オープンソースだから安く済む」のではない。最も節約できるのは恐らくハードウエアコスト、特にストレージコストだろう。Hadoopでは、Hadoopクラスターを構成する各ノード(PCサーバー)の内蔵ディスクにデータを保存する。分散ファイルシステム「Hadoop Distributed File System(HDFS)」がデータを複数のノードに重複して保存するので、信頼性の高いストレージ装置(ディスクアレイ)は必要ない。
Hadoopと同様に、安価なPCサーバーを連ねることで、巨大なデータを高速に処理できるオープンソースソフトウエアが次々登場している。このコラムでも何度か紹介した「キー・バリュー型データストア」のことで、最近では米Facebookが開発した「Cassandra」が人気だ。
どの企業にもBig Data
Hadoopやキー・バリュー型データストアを使えば高価なストレージ装置が不要なので、企業は大量のデータを蓄積しやすくなる。使い道がはっきりしていないデータでも、とりあえず貯めておける。データの料理方法は後で考えればいい。
そうやってデータを蓄積していけば、テラ~ペタバイトクラスのBig Dataは、どんな企業でもあっという間に集まるだろう。Big Dataを料理してどう新しいアイデアを生み出すかは、マーケティング担当者や開発者の腕が問われるところだ。
Big Dataの料理法の一つとして、最近では「ソーシャルBPM(ビジネス・プロセス・マネジメント)」といった概念も登場し始めた。ソーシャルBPMとは、インスタントメッセンジャーや社内SNS(ソーシャル・ネットワーキング・サービス)のような「ソーシャルソフトウエア」を使って従業員や顧客の行動を可視化し(ログを取り)、それを分析することで業務改善を実現するものだという(詳細は日経コンピュータ6月23日号の「ガートナーレポート」参照)。
今まで集めていなかったログを収集、分析することで、今までにないアプリケーションを実現できる可能性がある。Big Dataを扱うHadoopやキー・バリュー型データストアは、決して大規模ネットサービス企業だけに関連する技術ではないのだ。
Big Dataのためにサーバーを買うのが面倒なら、「Amazon S3」のようなストレージサービスに保存するのもいいだろう。Amazon S3に保存したデータは、「Amazon Elastic MapReduce」というサービスとして提供されるHadoopによって分析可能だ。
米Amazon Web Servicesは先日、Amazon S3にデータをアップロード/ダウンロードするのに、「ハードディスクの物理輸送」を使うというサービス「AWS Import/Export」を正式に開始した。テラ~ペタバイトクラスのデータをAmazon S3に転送するのは、決して不可能ではない。