SlideShare a Scribd company logo
1
CDH最新情報
Kiyoshi  Mizuamru  |  Systems  Engineer
Cloudera  World  Tokyo  2013
⾃自⼰己紹介
•  ⽔水丸淳(みずまるきよし)
•  email:  maru@cloudera.com
•  2013年年2⽉月にCloudera株式会社⼊入社
•  プリセールス段階の技術対応を担当
•  2010年年6⽉月からとある研究所のプロジェクトでHadoop対抗となる
分散フレームワークの開発に従事
•  Hadoopとの関わりは3年年⽬目
2
本⽇日のアジェンダ
•  CDHとは
•  CDH開発の歴史
•  CDH4
•  CDH5ではこう変わる
3
4
ビッグデータに取り組むためのプラットフォーム
CDHとは
CDHとは何か
•  Clouderaʼ’s  Distribution  including  Apache  Hadoop
•  エンタープライズ向けに開発された100%オープンソースの
Hadoopディストリビューション
•  Apache  Hadoopを中⼼心としたオープンソースコンポーネント
(CDH4.4現在)
5
CDHで実現するビッグデータプラットフォーム
6
CDH概念念図
•  総てのデータを集約
•  その上に様々な処理理
を乗せる
7
統合
ストレージ
リソース管理理
メタデータ
バッチ
処理理
MAPREDUCE,  
HIVE,  PIG
インタラク
ティブ
SQL
CLOUDERA  
IMPALA
インタラク
ティブ
サーチ
CLOUDERA  
SEARCH
機械学習
MAHOUT,  
DATAFU
…
CDHを採⽤用する理理由
8
ポイント ユーザにもたらされるメリット
パッケージ化済み 他のどの形態のHadoopよりはるかに簡単にインストールすることがで
きます
パッチ適⽤用済み Apacheブランチをただダウンロードするよりも安定かつセキュアにし
てくれます
実績の証明済み 数千もの組織が既にCDHを使っているため、利利⽤用リスクが低くなって
います
⾼高機能 CDHはより多くのユースケースをカバーし、ユーザはコアのHadoopだ
けを使っていたときよりも⽣生産性を向上できます
統合済み 全体を把握するための時間を節約し、バージョン間あるいはパッチ間
依存に基づく障害のリスクを減らします
標準と認められている 既に多額の投資をしているRDBMS,  ETL,  そしてBIなどとCDHは最も
うまく連携できます
サポートあり CDHは商業組織が⽀支援しているディストリビューションです
100%  Apacheライセンス この技術への投資は保障されています
CDH開発の歴史
9
2009 2010 2011 2012 2012/06 2012/09 2013 2013/02 2013/05 2013/09
CDH3
Q2  2011
CDH4
2012/06
•  ⾼高可⽤用性ネームノード(NFS)
•  複数のデータ処理理フレームワーク
(MR1とMR2)
CDH4.1
2012/09
•  ⾼高可⽤用性ネームノード
(QJM)
CDH4.2
2013/02
•  ジョブトラッカーHA
•  HBaseスナップショット
CDH4.3
2013/05
•  データノードディスク間
バランシング
•  HueにPigエディタ搭載
CDH1
Q3  2009
CDH2
Q1  2010
CDH4.4
2013/09
•  ロールベースの認可
CDHバージョンの意味
10
•  CDH3以前:CDH3u0,  CDH3u1,  CDH3u2  …
•  2013/06/20にメンテナンス終了了済み(EOM)
•  CDH4以降降:CDH  X.Y.Z
•  X:メジャーバージョン(⼤大規模な変更更を含む)
•  Y:マイナーバージョン(CDH3以前のupdateに相当)
•  Z:ポイントバージョン(重⼤大なバグ修正のみ)
•  最新のリリース版はCDH4.4.0
CDH5ではこう変わる
主要な変更更について
おねがい
•  CDH  5  Release  Notesを読みましょう
•  ここではすべての変更更点をカバーしません
•  β版のドラフトから正式リリースまでに更更新される可能性あり
•  Release  Notesのセクション構成
•  New  Features  in  CDH5
•  Incompatible  Changes
•  Known  issues  in  CDH5
•  Release  Notesの配布場所
•  https://www.cloudera.com/content/cloudera-‐‑‒content/cloudera-‐‑‒
docs/CDH5/latest/CDH5-‐‑‒Release-‐‑‒Notes/CDH5-‐‑‒Release-‐‑‒
Notes.html
12
CDH  5.0.0  β1  コンポーネント⼀一覧
13
CDH  5.0.0  β1 CDH  4.4.0
Apache  Avro avro-‐‑‒1.7.4+3
Apache  Hadoop  2.0 hadoop-‐‑‒2.2.0+353 2.0.0+1475
Apache  DataFu pig-‐‑‒udf-‐‑‒
datafu-‐‑‒0.0.4+12
0.0.4+22
Apache  Flume flume-‐‑‒ng-‐‑‒1.4.0+44 1.4.0+23
Apache  HBase hbase-‐‑‒0.95.2+272 0.94.6+132
HBase  Solr hbase-‐‑‒solr-‐‑‒1.2+16
Apache  Hive hive-‐‑‒0.11.0+483 0.10.0+198
Apache  Mahout mahout-‐‑‒0.8+27 0.7+21
Apache  Oozie oozie-‐‑‒4.0.0+54 3.3.2+92
Apache  Pig pig-‐‑‒0.11.0+46 0.11.0+33
Apache  Sentry  (incubating) sentry-‐‑‒1.2.0+10 1.1.0
CDH  5.0.0  β1  コンポーネント⼀一覧・続き
14
CDH  5.0.0  β1 CDH  4.4.0
Apache  Solr solr-‐‑‒4.4.0+98
Apache  Sqoop sqoop-‐‑‒1.4.4+20 1.4.3+62
Apache  Sqoop  2 sqoop2-‐‑‒1.99.2+105 1.99.2+85
Apache  Whirr whirr-‐‑‒0.8.2+19 0.8.2+15
Apache  ZooKeper zookeeper-‐‑‒3.4.5+25 3.4.5+23
Parquet parquet-‐‑‒1.0.0+7
Cloudera  Development  Kit cdk-‐‑‒0.7.0+3
Cloudera  Hue hue-‐‑‒3.0.0+266 2.5.0+139
Cloudera  Impala impala-‐‑‒1.2.0+0 1.1.1
Cloudera  Llama llama-‐‑‒1.0.0+0
Cloudera  Search search-‐‑‒1.0.0+0 1.0.0
Java対応
•  CDH5はOracle  JDK  1.7をサポートします
•  CDH5ではJDK  1.7でコンパイルされたアプリケーションをサポート
•  CDH5  Beta1の検証バージョンはJDK  1.7.0_̲25
•  すべてのコンポーネントにおいて上記バージョンでテストを実施
•  CDH5ではJDK  1.6はノンサポートです
•  Oracle  JDK  1.7に移⾏行行をお願いします
15
MapReduce  2.0の正式サポート
•  YARNでMapReduce以外のジョブも効率率率的に
•  YARN(Yet-‐‑‒Another-‐‑‒Resource-‐‑‒Negotiator)
•  JobTracker+TaskTrackerを置き換え
•  JobTrakerの持っていた以下の機能を分離離
•  リソース管理理
•  ジョブスケジューリング/モニタリング
16
MapReduce  1.0のおさらい
17
Job  Client
Submit	
  Job JobTracker
TaskTracker
Map  Slot
Reduce  Slot
TaskTracker TaskTracker TaskTracker
TaskTracker TaskTracker TaskTracker TaskTracker
YARNのアーキテクチャ
18
Client
Submit	
  Application
ResourceManager
NodeManager
Client
AppMaster
Container
NodeManager
Cotainer
AppMaster
NodeManager
Container
Container
NodeManager
Container
ContainerCotainer
Container
YARNのアーキテクチャ
•  クラスタ全体でただひとつのResourceManager(RM)
•  ⾼高可⽤用性対応済み
•  アプリケーションごとに存在するApplicationManager  (AM)
•  フレームワーク固有のライブラリ
•  ResourceManagerから割り当てられたリソースで動作する
•  NodeManagerと協⼒力力してタスクを実⾏行行・モニタリングする
•  ノードごとに存在するNodeManager(NM)
•  MapReduce  2.0では
•  ResourceManagerとApplicationMasterがJobTrackerを置き換える
•  NodeManagerがTaskTrackerを置き換える
19
MapReduce  1.0のサポートも継続
•  MRv1かMRv2のどちらかを選択
•  MRv1とYARNのプロセスを同時に実⾏行行することはノンサポート
•  CDH5のMRv1では若若⼲干のAPI変更更あり
•  Hadoop  2.0.0との互換性維持のため
•  CDH4で利利⽤用していたMRv1アプリケーションをCDH5  MRv1で利利⽤用す
るためにはリコンパイルが必要
•  CDH5上でMRv1からMRv2への移⾏行行はリコンパイル不不要
20
⾮非推奨プロパティ
•  Hadoop  2.0.0以降降で多くのプロパティが廃⽌止予定に
•  HadoopとHDFSに関連するもの
•  CDH5のMRv1では引き続き動作します
•  これらを置き換える新しい  mapreduce*  プロパティは
CDH5のMRv1では動作しません
•  廃⽌止予定のプロパティのリスト
•  http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-‐‑‒
project-‐‑‒dist/hadoop-‐‑‒common/DeprecatedProperties.html
21
Apache  Flume新機能
•  Twitter  Sourceの追加
•  FLUME-‐‑‒2190
•  Twitterからデータを取得する
•  HTTP  SourceのHTTPS対応
•  FLUME-‐‑‒2109
22
Apache  HBase新機能
•  Hadoop  2.0対応
•  MTTRの改善
•  互換性の向上とアップグレードのしやすさの改善
•  スナップショット対応
•  CDH4.2/HBase0.94へバックポート済み
•  オンラインでのリージョンマージ
•  REST  proxyサーバでのセキュリティ、機能改善
23
Apache  HBase管理理に関係する機能
•  サーバ間のネットワークを通りHBaseファイルフォーマット
で読み書きされるデータは拡張可能なProtoBufエンコーディ
ングでシリアライズされるように変更更
•  将来の拡張で互換性を維持しやすくなることを期待
•  以前のバージョンとの互換性は維持できない
•  ネームスペースのサポート
•  テーブルをいくつかの管理理ドメインにまとめる
•  管理理者に特定のネームスペースの権限を付与する
24
Apache  HBase障害に関係する機能
•  MasterからRS/Clientへのコストなしでの通知
•  MasterからClientへマルチキャストコネクションを張る
•  あるRSがMasterにより異異常と認識識されたとき、Masterからマル
チキャストメッセージを送出することでClientはソケットタイム
アウトまで待たずにRSの異異常に気付くことができる
•  .META.,  -‐‑‒ROOT-‐‑‒専⽤用のHLog  .metaの導⼊入
•  サーバクラッシュ時にメタ情報を優先的に回復復
•  試験的な機能
•  分散ログリプレイ
•  リージョンとノードのマッピングを参照/編集するツール
25
Apache  HBaseデータ保護に関係する機能
•  レプリケーション機能のバグ修正
•  レプリケーションの信頼性を向上(HBASE-‐‑‒9373)
•  循環レプリケーションの深刻なバグを修正(HBASE-‐‑‒9158)
•  スナップショット対応
•  オンラインスナップショット
•  ディレクトリ名を.snapshotから.hbase_̲snapshotsへ変更更
•  CopyTableの機能強化
•  startRow,  stopRowオプションの追加
•  Import  MapReduceジョブの機能強化
•  取り込むデータにフィルターをかけることが可能に
26
Apache  HBase注意すべき変更更点
•  CDH5  HBase(Apache  HBase  0.95.2/0.96.xに基づく)
とCDH4  HBase(同0.92/0.94に基づく)とで通信に互換
性がありません
•  CDH  5  HBaseへのローリングアップグレードはできません
•  HBaseを完全に停⽌止させる必要があります
•  -‐‑‒ROOT-‐‑‒の廃⽌止
•  .META.の場所はZooKeeperに直接格納
•  TotalOrderPartitonerの廃⽌止
•  ネームスペース導⼊入に伴うディレクトリ構成の変更更
•  HFile  v1はサポートされなくなりました
27
Apache  HDFS新機能
•  mmapを利利⽤用したHDFSローカルリード
•  HDFS  RW/ROスナップショット
•  HDFSへのNFSv3インターフェース
•  ファイル単位のHDFSアドバイザリ・キャッシング
•  WebHdfsFileSystemでのフェイルオーバーとリトライ
•  HdfsFileStatusでディレクトリの⼦子供の数を取得
•  INodeIdからINodeへのマッピング
•  DistributedFileSystemのCreate  API拡張によるブロック配置
を優先的に⾏行行うDataNode指定
28
Apache  HDFS変更更点
•  ファイルに実⾏行行属性ビットが付与できるように
•  CDH5ではcopyToLocalで持ってきたファイルに実⾏行行属性が付いている
場合がある
•  ランダムに⽣生成されていたブロックIDがシーケンシャル
に⽣生成されるように
•  HDFSバランサーコマンドの終了了コードの変更更
•  成功すると1が返る
•  それまでは0が返っていた
•  スクリプトで運⽤用している場合は要注意
29
Cloudera  Hue新機能
•  Sqoop  App
•  データベースとHDFSの間でデータを簡単にエクスポート・インポート
•  ウィザードでジョブを作成、ダッシュボードから進捗状況とログの参照
•  ZooKeeper  App
•  Znode階層構造・ZooKeeperクラスタのブラウジング
•  Znodeの追加・削除・編集と複数クラスタの管理理
•  Pig  Editor,  HBase  Browser,  Sqoop  App
•  Hue  Shellは廃⽌止されて上記アプリケーションで置き換え
30
Cloudera  Hue変更更点
•  画⾯面レイアウトの再設計
•  ⾼高可⽤用性JobTracker対応の強化
•  HiveServer2の採⽤用
•  Beeswaxデーモンから置き換え
•  CDH5のHueはHiveServer2にしか対応しない
•  Djangoバックエンドを1.2から1.4に
•  SAML認証によるシングルサインオン
31
Cloudera  Hue変更更点・続き
•  ドキュメントモデルの改善
•  Hive/Impalaのクエリ画⾯面にメタストア情報を統合
•  メタストア情報の詳細な表⽰示
•  Hueの機能紹介をするミニツアーの追加
•  Hue  Shell  Appの完全な廃⽌止
•  YARNがデフォルトに
32
Apache  Hive・HCatalog新機能
•  テーブルのTRUNCATE対応
•  HIVE-‐‑‒466
•  LEAD/LAG/FIRST/LAST関数の追加
•  Hiveで利利⽤用可能な分析⽤用ウィンドウ関数の充実
•  HIVE-‐‑‒896
•  DECIMALデータ型の追加
•  HIVE-‐‑‒2693
•  ALTER  VIEW  AS  SELECT構⽂文の追加
•  HIVE-‐‑‒3834
33
Apache  Hive・HCatalog変更更点
•  メタストアバージョンの⼀一貫性チェック
•  HIVE-‐‑‒3764
•  ORDER  BYのパラレル実⾏行行サポート
•  HIVE-‐‑‒1402
•  相関検出・最適化のための新しいオプティマイザ
•  HIVE-‐‑‒2206
•  GROUP  BYの構造体サポート
•  HIVE-‐‑‒2517
•  HQLによる関数定義のサポート
•  HIVE-‐‑‒2655
34
Apache  Hive変更更点
•  CDH5  β1のHiveバージョンは0.11
•  Hive  0.11へアップグレードするためにはメタストアのスキーマアップ
グレードが必要
•  新しいバージョンのHiveを使い始める前にメタストアのアップグレード
を
•  忘れるとメタストア破壊に繋がるので特に注意を
•  CDH5に含まれる新しいschematool
•  メタストアスキーマをオフラインでアップグレードするための推奨ツール
•  JDBCアプリケーションとHiveServer2
•  HiveServer2に接続するためには新しいCDH5  JDBCパッケージが必要
•  アプリケーションの再コンパイルは必要なし
•  CDH5  HueはCDH4のHiveServer2とは互換性なし
35
Cloudera  Impala新機能
•  UDF対応
•  ImpalaをETL/ELTパイプラインに組み込みことが容易易に
•  これまではUDFを使⽤用するときはHiveに頼らざるを得なかった
•  スカラUDFに加えてユーザ定義の集約関数も実⾏行行可能
•  C++で記述された関数の実⾏行行サポート
•  Javaで記述された既存のHive関数の実⾏行行サポート
•  CREATE  FUNCTION⽂文によるUDFの作成
•  DROP  FUNCTION⽂文によるUDFの削除
36
Cloudera  Impala新機能
•  メタデータの⾃自動伝搬
•  INVALIDATE  METADATA,  REFRESHの必要性が減ります
•  Impalaノードから実⾏行行されたCREATE  TABLE,  ALTER  TABLE,  
DROP  TABLE,  INSERT,  LOAD  DATAに起因するメタデータは他
のImpalaノードに⾃自動的に伝搬していく
•  Hiveから加えられたメタデータの変更更については引き続き
INVALIDATE  METADATA,  REFRESHの操作が必要
•  catalogdデーモンにより実現
37
Cloudera  Impala新機能
•  YARNリソース管理理フレームワークとの統合
•  CDH5でのみ
•  LlamaがYARNに対してリソースを要求、必要なリソースが確保
できたときにのみImpalaクエリを実⾏行行
•  テーブルの統計情報取得を怠ると正しいリソースの⾒見見積もりが出
せないので注意
•  EXPLAIN出⼒力力の詳細化
•  EXPLAIN_̲LEVELオプションの新設
•  リソース消費の⾒見見込み量量を表⽰示
•  テーブル・カラムの統計情報有無を表⽰示
38
Cloudera  Llama
•  Long-‐‑‒Lived  Application  MAster
•  YARNがフォーカスしているのはバッチ処理理
•  Impalaの低レイテンシクエリではImpalaの起動コストは無視できない
•  キューごとにAMを事前に起動しておいて使い回す
•  ImpalaとYARNの間でリソースの調停を⾏行行う
•  Hadoopクラスタ内のリソースの確保、利利⽤用、解放をImpalaから実⾏行行
•  Impalaでリソース管理理を有効にしているときだけ必要
39
Apache  Mahout新機能
•  Vector,  Matrixの実装とAPIの変更更によるパフォーマンスの改善
•  レコメンダーの実装変更更によるパフォーマンスの改善
•  バイアス有りのアイテムベースレコメンダをサポート
•  SGD⾏行行列列の因⼦子分解
•  SVD++のサポート
•  LuceneストレージインデックスからSequenceFileへの変換
•  k-‐‑‒meansのストリーミング実装によるオンラインクラスタリング
•  ⾏行行列列の結合ユーティリティ
40
Apache  MapReduce  2.0(YARN)新機能
•  ResourceManagerの⾼高可⽤用性対応
•  複数のResourceManagerを利利⽤用することでSPOFを回避
•  実⾏行行中のジョブは完了了済みのタスクを再実⾏行行することなく回復復可能
•  リソース管理理
•  cgroupsを利利⽤用したメモリ・CPU使⽤用量量のモニタリングと制限
•  継続的スケジューリング
•  ノードのハートビートと切切り離離すことで⼤大規模クラスタでのパフォーマ
ンスを改善
41
Apache  Oozie新機能
•  ⾼高可⽤用性対応
•  Oozieサーバを複数利利⽤用してサービスを提供
•  スケーラビリティも同時に実現
•  HCatalogの統合
•  コーディネータでHCatalogテーブルのパーティションを依存関係の中
に組み込むことが可能に
•  SLAモニタリング
•  ジョブを監視してSLAを満⾜足した、満たせなかった、について通知を送
ることが可能に
•  JMS通知
•  JMSプロバイダに対してジョブの状態やSLAイベントを通知可能
42
Apache  Oozie変更更点
•  Oozie共有ライブラリ
•  CDH5  Beta  1パッケージで提供されるものに置き換えが必要
•  Oozieデータベース
•  データベースのアップグレードが必要
•  Oozieクライアント
•  CDH4.xのクライアントはCDH5.xのOozieサーバと互換性なし
•  すべてのOozieクライアントをアップデートしてください
43
44
補⾜足資料料
CDH4  コンポーネント⼀一覧
45
CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0
DataFu 0.0.4+14 0.0.4+17 0.0.4+20 0.0.4+22
Flume 1.2.0+142 1.3.0+97 1.3.0+161 1.4.0+23
Hadoop 2.0.0+573 2.0.0+968 2.0.0+1369 2.0.0+1475
HBase 0.92.1+176 0.94.2+228 0.94.6+107 0.94.6+132
HCatalog 0.4.0+219 0.5.0+11 0.5.0+13
Hive 0.9.0+161 0.10.0+84 0.10.0+135 0.10.0+198
Mahout 0.7+14 0.7+17 0.7+19 0.7+21
MR1 0.20.2+1281 0.20.2+1361 0.20.2+1369 0.20.2+1475
Oozie 3.2.0+140 3.3.0+83 3.3.2+54 3.3.2+92
Pig 0.10.0+64 0.10.0+511 0.11.0+30 0.11.0+33
CDH4  コンポーネント⼀一覧・続き
46
CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0
Sqoop 1.4.1+60 1.4.2+61 1.4.3+36 1.4.3+62
Sqoop2 1.99.1+34 1.99.1+117 1.99.2+85
Whirr 0.8.0+24 0.8.0+27 0.8.2+13 0.8.2+15
ZooKeeper 3.4.3+35 3.4.5+17 3.4.5+21 3.4.5+23
Sentry 1.1.0 1.1.0
Cloudera  Hue 2.1.0+226 2.2.0+198 2.3.0+140 2.5.0+139
Cloudera  Impala 1.1.1 1.1.1
Cloudera  Search 1.0.0 1.0.0
47

More Related Content

CDH5最新情報 #cwt2013

  • 1. 1 CDH最新情報 Kiyoshi  Mizuamru  |  Systems  Engineer Cloudera  World  Tokyo  2013
  • 2. ⾃自⼰己紹介 •  ⽔水丸淳(みずまるきよし) •  email:  [email protected] •  2013年年2⽉月にCloudera株式会社⼊入社 •  プリセールス段階の技術対応を担当 •  2010年年6⽉月からとある研究所のプロジェクトでHadoop対抗となる 分散フレームワークの開発に従事 •  Hadoopとの関わりは3年年⽬目 2
  • 5. CDHとは何か •  Clouderaʼ’s  Distribution  including  Apache  Hadoop •  エンタープライズ向けに開発された100%オープンソースの Hadoopディストリビューション •  Apache  Hadoopを中⼼心としたオープンソースコンポーネント (CDH4.4現在) 5
  • 7. CDH概念念図 •  総てのデータを集約 •  その上に様々な処理理 を乗せる 7 統合 ストレージ リソース管理理 メタデータ バッチ 処理理 MAPREDUCE,   HIVE,  PIG インタラク ティブ SQL CLOUDERA   IMPALA インタラク ティブ サーチ CLOUDERA   SEARCH 機械学習 MAHOUT,   DATAFU …
  • 8. CDHを採⽤用する理理由 8 ポイント ユーザにもたらされるメリット パッケージ化済み 他のどの形態のHadoopよりはるかに簡単にインストールすることがで きます パッチ適⽤用済み Apacheブランチをただダウンロードするよりも安定かつセキュアにし てくれます 実績の証明済み 数千もの組織が既にCDHを使っているため、利利⽤用リスクが低くなって います ⾼高機能 CDHはより多くのユースケースをカバーし、ユーザはコアのHadoopだ けを使っていたときよりも⽣生産性を向上できます 統合済み 全体を把握するための時間を節約し、バージョン間あるいはパッチ間 依存に基づく障害のリスクを減らします 標準と認められている 既に多額の投資をしているRDBMS,  ETL,  そしてBIなどとCDHは最も うまく連携できます サポートあり CDHは商業組織が⽀支援しているディストリビューションです 100%  Apacheライセンス この技術への投資は保障されています
  • 9. CDH開発の歴史 9 2009 2010 2011 2012 2012/06 2012/09 2013 2013/02 2013/05 2013/09 CDH3 Q2  2011 CDH4 2012/06 •  ⾼高可⽤用性ネームノード(NFS) •  複数のデータ処理理フレームワーク (MR1とMR2) CDH4.1 2012/09 •  ⾼高可⽤用性ネームノード (QJM) CDH4.2 2013/02 •  ジョブトラッカーHA •  HBaseスナップショット CDH4.3 2013/05 •  データノードディスク間 バランシング •  HueにPigエディタ搭載 CDH1 Q3  2009 CDH2 Q1  2010 CDH4.4 2013/09 •  ロールベースの認可
  • 10. CDHバージョンの意味 10 •  CDH3以前:CDH3u0,  CDH3u1,  CDH3u2  … •  2013/06/20にメンテナンス終了了済み(EOM) •  CDH4以降降:CDH  X.Y.Z •  X:メジャーバージョン(⼤大規模な変更更を含む) •  Y:マイナーバージョン(CDH3以前のupdateに相当) •  Z:ポイントバージョン(重⼤大なバグ修正のみ) •  最新のリリース版はCDH4.4.0
  • 12. おねがい •  CDH  5  Release  Notesを読みましょう •  ここではすべての変更更点をカバーしません •  β版のドラフトから正式リリースまでに更更新される可能性あり •  Release  Notesのセクション構成 •  New  Features  in  CDH5 •  Incompatible  Changes •  Known  issues  in  CDH5 •  Release  Notesの配布場所 •  https://www.cloudera.com/content/cloudera-‐‑‒content/cloudera-‐‑‒ docs/CDH5/latest/CDH5-‐‑‒Release-‐‑‒Notes/CDH5-‐‑‒Release-‐‑‒ Notes.html 12
  • 13. CDH  5.0.0  β1  コンポーネント⼀一覧 13 CDH  5.0.0  β1 CDH  4.4.0 Apache  Avro avro-‐‑‒1.7.4+3 Apache  Hadoop  2.0 hadoop-‐‑‒2.2.0+353 2.0.0+1475 Apache  DataFu pig-‐‑‒udf-‐‑‒ datafu-‐‑‒0.0.4+12 0.0.4+22 Apache  Flume flume-‐‑‒ng-‐‑‒1.4.0+44 1.4.0+23 Apache  HBase hbase-‐‑‒0.95.2+272 0.94.6+132 HBase  Solr hbase-‐‑‒solr-‐‑‒1.2+16 Apache  Hive hive-‐‑‒0.11.0+483 0.10.0+198 Apache  Mahout mahout-‐‑‒0.8+27 0.7+21 Apache  Oozie oozie-‐‑‒4.0.0+54 3.3.2+92 Apache  Pig pig-‐‑‒0.11.0+46 0.11.0+33 Apache  Sentry  (incubating) sentry-‐‑‒1.2.0+10 1.1.0
  • 14. CDH  5.0.0  β1  コンポーネント⼀一覧・続き 14 CDH  5.0.0  β1 CDH  4.4.0 Apache  Solr solr-‐‑‒4.4.0+98 Apache  Sqoop sqoop-‐‑‒1.4.4+20 1.4.3+62 Apache  Sqoop  2 sqoop2-‐‑‒1.99.2+105 1.99.2+85 Apache  Whirr whirr-‐‑‒0.8.2+19 0.8.2+15 Apache  ZooKeper zookeeper-‐‑‒3.4.5+25 3.4.5+23 Parquet parquet-‐‑‒1.0.0+7 Cloudera  Development  Kit cdk-‐‑‒0.7.0+3 Cloudera  Hue hue-‐‑‒3.0.0+266 2.5.0+139 Cloudera  Impala impala-‐‑‒1.2.0+0 1.1.1 Cloudera  Llama llama-‐‑‒1.0.0+0 Cloudera  Search search-‐‑‒1.0.0+0 1.0.0
  • 15. Java対応 •  CDH5はOracle  JDK  1.7をサポートします •  CDH5ではJDK  1.7でコンパイルされたアプリケーションをサポート •  CDH5  Beta1の検証バージョンはJDK  1.7.0_̲25 •  すべてのコンポーネントにおいて上記バージョンでテストを実施 •  CDH5ではJDK  1.6はノンサポートです •  Oracle  JDK  1.7に移⾏行行をお願いします 15
  • 16. MapReduce  2.0の正式サポート •  YARNでMapReduce以外のジョブも効率率率的に •  YARN(Yet-‐‑‒Another-‐‑‒Resource-‐‑‒Negotiator) •  JobTracker+TaskTrackerを置き換え •  JobTrakerの持っていた以下の機能を分離離 •  リソース管理理 •  ジョブスケジューリング/モニタリング 16
  • 17. MapReduce  1.0のおさらい 17 Job  Client Submit  Job JobTracker TaskTracker Map  Slot Reduce  Slot TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker
  • 19. YARNのアーキテクチャ •  クラスタ全体でただひとつのResourceManager(RM) •  ⾼高可⽤用性対応済み •  アプリケーションごとに存在するApplicationManager  (AM) •  フレームワーク固有のライブラリ •  ResourceManagerから割り当てられたリソースで動作する •  NodeManagerと協⼒力力してタスクを実⾏行行・モニタリングする •  ノードごとに存在するNodeManager(NM) •  MapReduce  2.0では •  ResourceManagerとApplicationMasterがJobTrackerを置き換える •  NodeManagerがTaskTrackerを置き換える 19
  • 20. MapReduce  1.0のサポートも継続 •  MRv1かMRv2のどちらかを選択 •  MRv1とYARNのプロセスを同時に実⾏行行することはノンサポート •  CDH5のMRv1では若若⼲干のAPI変更更あり •  Hadoop  2.0.0との互換性維持のため •  CDH4で利利⽤用していたMRv1アプリケーションをCDH5  MRv1で利利⽤用す るためにはリコンパイルが必要 •  CDH5上でMRv1からMRv2への移⾏行行はリコンパイル不不要 20
  • 21. ⾮非推奨プロパティ •  Hadoop  2.0.0以降降で多くのプロパティが廃⽌止予定に •  HadoopとHDFSに関連するもの •  CDH5のMRv1では引き続き動作します •  これらを置き換える新しい  mapreduce*  プロパティは CDH5のMRv1では動作しません •  廃⽌止予定のプロパティのリスト •  http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-‐‑‒ project-‐‑‒dist/hadoop-‐‑‒common/DeprecatedProperties.html 21
  • 22. Apache  Flume新機能 •  Twitter  Sourceの追加 •  FLUME-‐‑‒2190 •  Twitterからデータを取得する •  HTTP  SourceのHTTPS対応 •  FLUME-‐‑‒2109 22
  • 23. Apache  HBase新機能 •  Hadoop  2.0対応 •  MTTRの改善 •  互換性の向上とアップグレードのしやすさの改善 •  スナップショット対応 •  CDH4.2/HBase0.94へバックポート済み •  オンラインでのリージョンマージ •  REST  proxyサーバでのセキュリティ、機能改善 23
  • 24. Apache  HBase管理理に関係する機能 •  サーバ間のネットワークを通りHBaseファイルフォーマット で読み書きされるデータは拡張可能なProtoBufエンコーディ ングでシリアライズされるように変更更 •  将来の拡張で互換性を維持しやすくなることを期待 •  以前のバージョンとの互換性は維持できない •  ネームスペースのサポート •  テーブルをいくつかの管理理ドメインにまとめる •  管理理者に特定のネームスペースの権限を付与する 24
  • 25. Apache  HBase障害に関係する機能 •  MasterからRS/Clientへのコストなしでの通知 •  MasterからClientへマルチキャストコネクションを張る •  あるRSがMasterにより異異常と認識識されたとき、Masterからマル チキャストメッセージを送出することでClientはソケットタイム アウトまで待たずにRSの異異常に気付くことができる •  .META.,  -‐‑‒ROOT-‐‑‒専⽤用のHLog  .metaの導⼊入 •  サーバクラッシュ時にメタ情報を優先的に回復復 •  試験的な機能 •  分散ログリプレイ •  リージョンとノードのマッピングを参照/編集するツール 25
  • 26. Apache  HBaseデータ保護に関係する機能 •  レプリケーション機能のバグ修正 •  レプリケーションの信頼性を向上(HBASE-‐‑‒9373) •  循環レプリケーションの深刻なバグを修正(HBASE-‐‑‒9158) •  スナップショット対応 •  オンラインスナップショット •  ディレクトリ名を.snapshotから.hbase_̲snapshotsへ変更更 •  CopyTableの機能強化 •  startRow,  stopRowオプションの追加 •  Import  MapReduceジョブの機能強化 •  取り込むデータにフィルターをかけることが可能に 26
  • 27. Apache  HBase注意すべき変更更点 •  CDH5  HBase(Apache  HBase  0.95.2/0.96.xに基づく) とCDH4  HBase(同0.92/0.94に基づく)とで通信に互換 性がありません •  CDH  5  HBaseへのローリングアップグレードはできません •  HBaseを完全に停⽌止させる必要があります •  -‐‑‒ROOT-‐‑‒の廃⽌止 •  .META.の場所はZooKeeperに直接格納 •  TotalOrderPartitonerの廃⽌止 •  ネームスペース導⼊入に伴うディレクトリ構成の変更更 •  HFile  v1はサポートされなくなりました 27
  • 28. Apache  HDFS新機能 •  mmapを利利⽤用したHDFSローカルリード •  HDFS  RW/ROスナップショット •  HDFSへのNFSv3インターフェース •  ファイル単位のHDFSアドバイザリ・キャッシング •  WebHdfsFileSystemでのフェイルオーバーとリトライ •  HdfsFileStatusでディレクトリの⼦子供の数を取得 •  INodeIdからINodeへのマッピング •  DistributedFileSystemのCreate  API拡張によるブロック配置 を優先的に⾏行行うDataNode指定 28
  • 29. Apache  HDFS変更更点 •  ファイルに実⾏行行属性ビットが付与できるように •  CDH5ではcopyToLocalで持ってきたファイルに実⾏行行属性が付いている 場合がある •  ランダムに⽣生成されていたブロックIDがシーケンシャル に⽣生成されるように •  HDFSバランサーコマンドの終了了コードの変更更 •  成功すると1が返る •  それまでは0が返っていた •  スクリプトで運⽤用している場合は要注意 29
  • 30. Cloudera  Hue新機能 •  Sqoop  App •  データベースとHDFSの間でデータを簡単にエクスポート・インポート •  ウィザードでジョブを作成、ダッシュボードから進捗状況とログの参照 •  ZooKeeper  App •  Znode階層構造・ZooKeeperクラスタのブラウジング •  Znodeの追加・削除・編集と複数クラスタの管理理 •  Pig  Editor,  HBase  Browser,  Sqoop  App •  Hue  Shellは廃⽌止されて上記アプリケーションで置き換え 30
  • 31. Cloudera  Hue変更更点 •  画⾯面レイアウトの再設計 •  ⾼高可⽤用性JobTracker対応の強化 •  HiveServer2の採⽤用 •  Beeswaxデーモンから置き換え •  CDH5のHueはHiveServer2にしか対応しない •  Djangoバックエンドを1.2から1.4に •  SAML認証によるシングルサインオン 31
  • 32. Cloudera  Hue変更更点・続き •  ドキュメントモデルの改善 •  Hive/Impalaのクエリ画⾯面にメタストア情報を統合 •  メタストア情報の詳細な表⽰示 •  Hueの機能紹介をするミニツアーの追加 •  Hue  Shell  Appの完全な廃⽌止 •  YARNがデフォルトに 32
  • 33. Apache  Hive・HCatalog新機能 •  テーブルのTRUNCATE対応 •  HIVE-‐‑‒466 •  LEAD/LAG/FIRST/LAST関数の追加 •  Hiveで利利⽤用可能な分析⽤用ウィンドウ関数の充実 •  HIVE-‐‑‒896 •  DECIMALデータ型の追加 •  HIVE-‐‑‒2693 •  ALTER  VIEW  AS  SELECT構⽂文の追加 •  HIVE-‐‑‒3834 33
  • 34. Apache  Hive・HCatalog変更更点 •  メタストアバージョンの⼀一貫性チェック •  HIVE-‐‑‒3764 •  ORDER  BYのパラレル実⾏行行サポート •  HIVE-‐‑‒1402 •  相関検出・最適化のための新しいオプティマイザ •  HIVE-‐‑‒2206 •  GROUP  BYの構造体サポート •  HIVE-‐‑‒2517 •  HQLによる関数定義のサポート •  HIVE-‐‑‒2655 34
  • 35. Apache  Hive変更更点 •  CDH5  β1のHiveバージョンは0.11 •  Hive  0.11へアップグレードするためにはメタストアのスキーマアップ グレードが必要 •  新しいバージョンのHiveを使い始める前にメタストアのアップグレード を •  忘れるとメタストア破壊に繋がるので特に注意を •  CDH5に含まれる新しいschematool •  メタストアスキーマをオフラインでアップグレードするための推奨ツール •  JDBCアプリケーションとHiveServer2 •  HiveServer2に接続するためには新しいCDH5  JDBCパッケージが必要 •  アプリケーションの再コンパイルは必要なし •  CDH5  HueはCDH4のHiveServer2とは互換性なし 35
  • 36. Cloudera  Impala新機能 •  UDF対応 •  ImpalaをETL/ELTパイプラインに組み込みことが容易易に •  これまではUDFを使⽤用するときはHiveに頼らざるを得なかった •  スカラUDFに加えてユーザ定義の集約関数も実⾏行行可能 •  C++で記述された関数の実⾏行行サポート •  Javaで記述された既存のHive関数の実⾏行行サポート •  CREATE  FUNCTION⽂文によるUDFの作成 •  DROP  FUNCTION⽂文によるUDFの削除 36
  • 37. Cloudera  Impala新機能 •  メタデータの⾃自動伝搬 •  INVALIDATE  METADATA,  REFRESHの必要性が減ります •  Impalaノードから実⾏行行されたCREATE  TABLE,  ALTER  TABLE,   DROP  TABLE,  INSERT,  LOAD  DATAに起因するメタデータは他 のImpalaノードに⾃自動的に伝搬していく •  Hiveから加えられたメタデータの変更更については引き続き INVALIDATE  METADATA,  REFRESHの操作が必要 •  catalogdデーモンにより実現 37
  • 38. Cloudera  Impala新機能 •  YARNリソース管理理フレームワークとの統合 •  CDH5でのみ •  LlamaがYARNに対してリソースを要求、必要なリソースが確保 できたときにのみImpalaクエリを実⾏行行 •  テーブルの統計情報取得を怠ると正しいリソースの⾒見見積もりが出 せないので注意 •  EXPLAIN出⼒力力の詳細化 •  EXPLAIN_̲LEVELオプションの新設 •  リソース消費の⾒見見込み量量を表⽰示 •  テーブル・カラムの統計情報有無を表⽰示 38
  • 39. Cloudera  Llama •  Long-‐‑‒Lived  Application  MAster •  YARNがフォーカスしているのはバッチ処理理 •  Impalaの低レイテンシクエリではImpalaの起動コストは無視できない •  キューごとにAMを事前に起動しておいて使い回す •  ImpalaとYARNの間でリソースの調停を⾏行行う •  Hadoopクラスタ内のリソースの確保、利利⽤用、解放をImpalaから実⾏行行 •  Impalaでリソース管理理を有効にしているときだけ必要 39
  • 40. Apache  Mahout新機能 •  Vector,  Matrixの実装とAPIの変更更によるパフォーマンスの改善 •  レコメンダーの実装変更更によるパフォーマンスの改善 •  バイアス有りのアイテムベースレコメンダをサポート •  SGD⾏行行列列の因⼦子分解 •  SVD++のサポート •  LuceneストレージインデックスからSequenceFileへの変換 •  k-‐‑‒meansのストリーミング実装によるオンラインクラスタリング •  ⾏行行列列の結合ユーティリティ 40
  • 41. Apache  MapReduce  2.0(YARN)新機能 •  ResourceManagerの⾼高可⽤用性対応 •  複数のResourceManagerを利利⽤用することでSPOFを回避 •  実⾏行行中のジョブは完了了済みのタスクを再実⾏行行することなく回復復可能 •  リソース管理理 •  cgroupsを利利⽤用したメモリ・CPU使⽤用量量のモニタリングと制限 •  継続的スケジューリング •  ノードのハートビートと切切り離離すことで⼤大規模クラスタでのパフォーマ ンスを改善 41
  • 42. Apache  Oozie新機能 •  ⾼高可⽤用性対応 •  Oozieサーバを複数利利⽤用してサービスを提供 •  スケーラビリティも同時に実現 •  HCatalogの統合 •  コーディネータでHCatalogテーブルのパーティションを依存関係の中 に組み込むことが可能に •  SLAモニタリング •  ジョブを監視してSLAを満⾜足した、満たせなかった、について通知を送 ることが可能に •  JMS通知 •  JMSプロバイダに対してジョブの状態やSLAイベントを通知可能 42
  • 43. Apache  Oozie変更更点 •  Oozie共有ライブラリ •  CDH5  Beta  1パッケージで提供されるものに置き換えが必要 •  Oozieデータベース •  データベースのアップグレードが必要 •  Oozieクライアント •  CDH4.xのクライアントはCDH5.xのOozieサーバと互換性なし •  すべてのOozieクライアントをアップデートしてください 43
  • 45. CDH4  コンポーネント⼀一覧 45 CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0 DataFu 0.0.4+14 0.0.4+17 0.0.4+20 0.0.4+22 Flume 1.2.0+142 1.3.0+97 1.3.0+161 1.4.0+23 Hadoop 2.0.0+573 2.0.0+968 2.0.0+1369 2.0.0+1475 HBase 0.92.1+176 0.94.2+228 0.94.6+107 0.94.6+132 HCatalog 0.4.0+219 0.5.0+11 0.5.0+13 Hive 0.9.0+161 0.10.0+84 0.10.0+135 0.10.0+198 Mahout 0.7+14 0.7+17 0.7+19 0.7+21 MR1 0.20.2+1281 0.20.2+1361 0.20.2+1369 0.20.2+1475 Oozie 3.2.0+140 3.3.0+83 3.3.2+54 3.3.2+92 Pig 0.10.0+64 0.10.0+511 0.11.0+30 0.11.0+33
  • 46. CDH4  コンポーネント⼀一覧・続き 46 CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0 Sqoop 1.4.1+60 1.4.2+61 1.4.3+36 1.4.3+62 Sqoop2 1.99.1+34 1.99.1+117 1.99.2+85 Whirr 0.8.0+24 0.8.0+27 0.8.2+13 0.8.2+15 ZooKeeper 3.4.3+35 3.4.5+17 3.4.5+21 3.4.5+23 Sentry 1.1.0 1.1.0 Cloudera  Hue 2.1.0+226 2.2.0+198 2.3.0+140 2.5.0+139 Cloudera  Impala 1.1.1 1.1.1 Cloudera  Search 1.0.0 1.0.0
  • 47. 47