NTTデータとNTTデータ数理システムは2015年4月27日、1億件を超える大量のデータ分析ができる「In-Database Analytics技術」(図)を共同で開発したと発表した。検証では100億件のデータをサーバー1台で約4時間半で分析でき、従来製品の1000倍以上の件数を処理できたという。NTTデータは15年度中に同技術を用いたサービスを商用化し、2020年度までに100億円の売り上げを目指す。
業務データを高速に分析する「データウエアハウス(DWH)」では扱うデータ量や分析処理の速度に限界があったが、今回両社が共同でこの問題を解決する技術を開発。DWHとデータ分析ソフトの役割分担を見直し、DWH内部でデータを分析できるようにした。
DWH用のデータベースサーバーソフト「SAP IQ」(旧Sybase IQ、関連記事)に同技術を実装。分析はSQL(データベース言語の一種)を使っている。
検証では「K-means」と呼ぶ分析アルゴリズムを使って、サーバー1台、10台、20台の3種類で実施。サーバー1台でも、現在一般的なデータ分析用のプログラミング言語「R言語」では処理できない1億を超えるデータの処理に成功(表)。さらに台数を10台に増やすと約5倍、20台で約10倍と飛躍的に処理性能が向上したという。
データ件数 | 1000万件 | 1億件 | 10億件 | 100億件 |
---|---|---|---|---|
In-Database Analytics技術 | 28秒 | 227秒 (約4分弱) | 1900秒 (約30分) | 16596秒 (約4時間半) |
R言語 | 179秒 (約3分) | 処理不可能 |