Dataflow により、バッチまたはストリームに使用できる 1つのポータブルなデータ パイプラインを作成し、Apache Flink、Apache Spark、
Google Cloud Dataflow、ローカルな ダイレクト パイプラインといったさまざまなランタイムで実行できます。
Dataflow を Apache Incubator プロジェクトとして提案したことは、Google にとってエキサイティングな試みです。
Dataflow モデル、SDK、ランナーがオープンソース データ分野で多くのユニークな機能を提供すると考えているからです。
パイプライン ファースト、ランタイム セカンド
Dataflow モデルと SDK により、まずデータ パイプラインの定義に集中できます。この段階では、データ パイプラインがどのように実行されるか、それらを実行する特定のランナーの特性が何かは考慮しないで済みます。
ポータビリティ
データ パイプラインは多くのランタイム エンジンでポータブルに実行できます。ランタイムはパフォーマンス、コスト、スケーラビリティなど、多様な考慮点を踏まえて選択できます。
統合モデル
バッチ処理とストリーム処理が 1 つのモデルに統合され、ウィンドウ制御や順序付け、トリガ制御など、強力なセマンティクスを利用できます。
開発ツール
Dataflow SDK は、オープンソースの言語、ライブラリ、ツールを使ってポータブルなデータ パイプラインを迅速かつ簡単に作成するのに必要なツールを提供します。
Dataflow モデルの威力を理解するには、O’Reilly Radar の記事である
The World Beyond Batch: Streaming 102 をお読みになることをお勧めします。また、Dataflow の詳しい情報は下記からも得られます。
Dataflow に関する私たちの提案を検討してくれたApache Software Foundation とコミュニティには大変感謝しています。
Dataflow のオープン開発に積極的に参加していくことを楽しみにしています。
- Posted by Frances Perry (Software Engineer) and James Malone (Product Manager)
0 件のコメント :
コメントを投稿