エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
コメント一覧は非表示に設定されています。
(詳しくはこちら)
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopク... Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopクラスタ間でデータコピーするためのツールです。保守運用している場合を除き、おそらく2020年においても運用上の選択肢として残っている最後のMapReduceのツールです。この記事では、DistCpの紹介と実践的な使い方の基本について説明していきます。内容としては以下の通りです。 Distcpの概要と原理 実践DistCp DistCpにドライランはない コピーとアップデートの挙動の違いを押さえる スナップショットを取得する ソースと宛先、どちらのクラスタでDistCpを実行するか 異なるメジャーバージョン間でのデータ転送にwebhdfsを使う -p オプションの挙動 2つのコピー戦略: uniformizeとdynamic map数の調整 転送帯域