ニュース

Snowflake、開発者向けフレームワーク「Snowpark」の最新状況について説明 国内ユーザー事例も

 Snowflake株式会社は18日、データエンジニアリングへの最新の取り組みと、開発者向けフレームワーク「Snowpark」の最新状況について説明。さらに、Snowparkを活用した国内ユーザー事例についても公開した。

 Snowflake シニアプロダクトマーケティングマネージャー兼エヴァンジェリストのKT氏は、「データを使いやすくするためにデータを運んだり、加工したりするデータエンジニアリングには、さまざまな課題がある。すべてのユーザーがデータを利用できるようにするため、データは平均で12回コピーされており、ユーザーの82%が煩雑なETLプロセスのためにバージョンに一貫性がないと報告している。また、ETLパイプラインの構築とメンテナンスに費やされる時間は全体の44%にのぼり、そのコストは年間52万ドルに達している。データを使えるようにするための作業に、膨大な時間とコストがかかっているのが現状である」と指摘。

Snowflake シニアプロダクトマーケティングマネージャー兼エヴァンジェリストのKT氏

 また、「データエンジニアリングでは、さまざまな場所で生まれたさまざまな種類のデータを収集し、使えるようにしなくてはならないこと、データのパイプラインの信頼性を担保すること、さまざまなスキルセットを持つ人が広く利用できるようにすることが求められているが、これを実現するには、従来のアプローチでは限界があった」としたうえで、「Snowflakeは、データクラウドによってデータエンジニアリングの課題を解決できる。ひとつのプラットフォームに、データ、サービス、アプリを載せられ、構造化、半構造化、非構造化のすべてのデータに高速でアクセスできること、伸縮性のある高性能エンジンにより本格的な性能と信頼性を最適なコストで実現すること、Snowparkによって、シンプルで信頼性が高いデータパイプラインをさまざまな言語で構築できる点などが特徴である」と述べた。

データクラウドでのデータエンジニアリング

 Snowparkは、2021年に発表したSnowflakeの開発者向けフレームワークで、PythonやJava、Scalaといった多言語にネイティブで対応。高速で効率的なデータ処理や、大量データの分析、機械学習の開発などを行えるのが特徴だ。

 「Snowparkは、データエンジニアリングを、より簡単に便利にする機能となる。さまざまな言語にネイティブに対応し、あらゆるデータユーザーが、単一のプラットフォーム上で作業できるようになる。また、ガバナンスがトレードオフになることなく、一貫した制御をすべてのワークロードに適用し、しっかりと管理された環境でデータを利用できる。そして、既存のSparkパイプラインを最小限のコード変更で移行し、価格性能の向上、コストの透明性の向上、運用オーバーヘッドの削減を実現することができる」などとした。

Snowparkを使用する理由

 中でも、2022年11月に提供を開始したSnowpark for Pythonは、「多くのエンジニアに待たれていたものである。Pythonによる慣れたプログラミング構成が利用できること、数多くのパッケージへのアクセスをはじめとして充実したエコシステムを活用できること、サンドボックス化された安全な環境でデータの処理ができることが特徴になっている」と述べた。

 また、KT氏は、Snowflakeの今後の取り組みとして、セキュリティに関するアップデートを継続的に行うほか、Pythonでは3.9以上への対応や追加ライブラリの提供、Streamlitによるビジュアルアプリケーションの稼働、パブリックプレビューとなったPythonワークシートの活用などを挙げた。

 「SnowflakeやSnowparkをより使いやすいものに進化させ、データエンジニア、データサイエンティテストをはじめとして、データを扱うあらゆる人たちに、メリットを提供したい」と語った。

Snowpark for Python

 さらに、Snowparkの具体的な活用事例を紹介した。

 小野薬品工業では、Pythonを扱うことができる人材の育成に最適な環境が提供できること、医療業界に多い機密性の高いデータを、ローカルに落とさずに最適な環境で運用できること、テラバイト級のデータも一瞬で処理ができることを評価して、Snowparkを導入したという。

 「Pythonは大学で学んだり、企業研修で採用したりといったことが増えており、その流れの中で、Snowflakeが利用できる環境が整っている。小野薬品工業では、現在、データ分析環境におけるAIやMLの部分でSnowparkを活用しているが、今後さらに利用範囲が拡張することを期待している」と述べた。

小野薬品工業の事例

 メディアプラットフォームのnoteでは、RDSからのテーブルの同期、現場のデータアナリストなどが活用するための中間テーブルの作成、連続的な処理を可能にするための複雑な中間テーブルの作成などに活用できる点を、Snowparkを選択した理由に挙げている。「プログラマビリティによる連続的な処理が可能になり、大幅なコスト削減を実現。現場のリクエストに応えるための工数を大幅に削減し、迅速な対応が可能になった。その分、社員がアイデアを考えるための時間を増やすことができ、今後のnoteのサービス向上につながると考えている」とした。

noteの事例

 会見では、レシピ動画プラットフォームである「クラシル」を運営するdely株式会社が説明を行った。

 2022年および2023年のSnowflake Data Superheroesに選ばれている、dely 開発BUクラシル開発部バックエンドエンジニアリングS Dataチーム データエンジニアのharry氏は、「これまでは誰にとってもわかりやすいレシピ動画を届けてきたが、今後の事業拡大に向けて、食の多様性に対して、どうコンテンツを提供するかといったことを考えており、そこにレコメンデーション機能を活用したいと思っている。そのためには、これまで以上にデータが重要になる。2021年からSnowflakeを導入し、リアルタイムデータパイプラインは構築されていたが、ML基盤の構築にリソースやコストを割けないこと、MLエンジニア人材がいないため、それ以外の人材でも実装できる環境が必要だと考えた」とする。

delyが抱えていた課題
dely 開発BUクラシル開発部バックエンドエンジニアリングS Dataチーム データエンジニアのharry氏

 そして、「Snowparkにより、すでに実装されていたリアルタイムデータパイプラインの延長線上で、MLを用いたリコメンデーションが可能になり、サービスとクラウド間でのデータの移動がないという部分でもコストメリットが生まれている。また、イベントドリブンで結果を返すことができているほか、Snowparkに最適化されたウェアハウスの選択が可能であり、今後、大規模な学習が必要になった場合には、それを選択することもできる」などと、導入によるメリットを説明した。

Snowpark for Pythonを利用したE2E ML Pipelineの構築
Snowpark導入による効果

 今後は、Snowflake 上でStreamlitを稼働させることで、レコメンド処理のシミュレーションだけでなく、プロダクト開発時のさまざまなニーズに対応することにも活用。Pythonワークシートにより、Snowflakeのユーザーアカウントを活用し、開発環境の構築などに大きなメリットがあると期待を述べた。