図●In-Database Analytics技術ではデータ分析における役割分担を見直した(出典:NTTデータ)
図●In-Database Analytics技術ではデータ分析における役割分担を見直した(出典:NTTデータ)
[画像のクリックで拡大表示]

 NTTデータとNTTデータ数理システムは2015年4月27日、1億件を超える大量のデータ分析ができる「In-Database Analytics技術」()を共同で開発したと発表した。検証では100億件のデータをサーバー1台で約4時間半で分析でき、従来製品の1000倍以上の件数を処理できたという。NTTデータは15年度中に同技術を用いたサービスを商用化し、2020年度までに100億円の売り上げを目指す。

 業務データを高速に分析する「データウエアハウス(DWH)」では扱うデータ量や分析処理の速度に限界があったが、今回両社が共同でこの問題を解決する技術を開発。DWHとデータ分析ソフトの役割分担を見直し、DWH内部でデータを分析できるようにした。

 DWH用のデータベースサーバーソフト「SAP IQ」(旧Sybase IQ、関連記事)に同技術を実装。分析はSQL(データベース言語の一種)を使っている。

 検証では「K-means」と呼ぶ分析アルゴリズムを使って、サーバー1台、10台、20台の3種類で実施。サーバー1台でも、現在一般的なデータ分析用のプログラミング言語「R言語」では処理できない1億を超えるデータの処理に成功()。さらに台数を10台に増やすと約5倍、20台で約10倍と飛躍的に処理性能が向上したという。

表●データ件数当たりの処理時間
1ノード(倫理56コア)時のIn-Database Analytics技術とR言語の性能比較
データ件数1000万件1億件10億件100億件
In-Database
Analytics技術
28秒227秒
(約4分弱)
1900秒
(約30分)
16596秒
(約4時間半)
R言語179秒
(約3分)
処理不可能