エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
データフローが必要な背景 Hadoop(HDFS)にデータを集めてSparkやMapReduceで処理を行いたい場合、データ... データフローが必要な背景 Hadoop(HDFS)にデータを集めてSparkやMapReduceで処理を行いたい場合、データのパイプラインを作る必要があるかもしれません。HadoopエコシステムのApache FlumeやApache Kafkaなどを組み合わせてパイプラインを作ることもできますが、それなりの手間と労力がかかります。 データフローを作るためのOSSとしてApache Nifi (https://nifi.apache.org/) がありますが、ApacheライセンスのOSS、StreamsetsのData Collector (https://streamsets.com/product/) もあります。後発な分、フローの定義やモニタリングのGUIが洗練されているような印象がありますね。 [Streamsetsのホームページより引用] Data CollectorはApac