SlideShare a Scribd company logo
はやわかり Hadoop shot6
Hadoop
最近名前をよく聞く
たまに いる
「おお、あの 新型 DB だろ? 早いの?」
たまに いる
「あのクラウドね。 SaaS だっけ?」
「ああ、 Google のあれでしょ?」
おしい
実態がよくわかってない人も多い
NO PROBLEM
何ら恥じることはない
Hadoop とは
並列分散処理基盤
・・・
バッチ基盤 分析基盤
なんとなくわかる
巨大な データ
100GB のログ
これを 処理する
並列 に
そして 安価 に
サーバを追加
=
処理性能アップ
でも最も重要な点
生態系
 
エコ システム
全体を俯瞰
これ 重要
この LT の目的
ディストリビューション
そもそも 3 つ ある
Apache Hadoop
本家 本元
特徴
リリースが慎重
様々な 要望
色々な 事情
あるはず
早く進化したい
もっと 機能追加したい
あるはず
OSS の ジレンマ
 
でも
互換性 重視
堅実 な進化
大人 な OSS
Cloudera Hadoop
米国 Cloudera 社
 
特徴
エンタープライズ 向け?
簡単
yum/ apt
即 インストール
設定も 楽ちん
大量バグフィックス
例えば
hadoop-0.20.1 +169
169 個 の バグフィックス
Apache 版に貢献済
Cloudera Desktop
Hadoop の管理ツール
 
 
超絶便利 ( まだ α )
Yahoo Hadoop
Yahoo で使用
巨大クラスタでの実績
品質向上 に全力
セキュリティ などの新機能
勿論膨大なバグフィックス
Apache 版に貢献済
Hadoop を 支える トライアングル
Apache Hadoop Cloudera Hadoop Yahoo Hadoop フィードバック フィードバック 意見交換
機能
大量
Core Map Reduce HDFS Zoo Keeper HBase Pig Hive Chukwa Cloudera Desktop Avro Sqoop
Core
Hadoop の中核
基本的な通信、 IO 、ファイルシステム、設定などなど
HDFS
H adoop D istributed F ile S ystem
Hadoop 分散ファイルシステム
巨大ファイルを でかめのブロックに分割し、 管理・保存
ノード間は勝手にレプリケーションする
Elastic さを持つファイルシステム
 
NameNode は、ファイル名、ブロック、ノードの対応の管理
DataNode は、ブロックを 管理
Hadoop MapReduce
みんな大好き MapReduce プログラミング
並列処理 プログラミング モデルの一種
Hadoop と プログラマの 基本的な 接点
Map :  ある観点でデータをまとめる。
Reduce : ソート済みデータを集約・計算する
仕組み
ジョブトラッカーと タスクトラッカー
ジョブトラッカー と タスクトラッカー
 
キモイ… .
じゃなくて
MapReduce ジョブを適切なタスクに分解し管理
ジョブトラッカーと タスクトラッカー
分解された タスクを実行。
Map/Reduce タスクは 子 JVM 起動 して実行。
データがある ところで、 タスクを起動。
ここまでが 基本中の基本
こっからは 早足
HBase
Hadoop 上に構築した DB
BigTable クローン
Hadoop が本来不得意な 小口データ を効率よく処理
Hive/Pig
 
ちょ w
MapReduce を書くのが メンドイ
そんな人のための簡易言語
Pig のほうが独自っぽい
Pig は Yahoo が 作成
Hive は SQL っぽい
Hive は FaceBook が作成
Zoo Keeper
やあ
ちょ w
分散協調サービス
リソースやデータの 調整役
Chukwa
データ収集システム
小さな大量ログを Hadoop で扱い易く
使ってる人いない ^^;?
Avro
シリアライズシステム
非常に高速かつ柔軟
ベンチ マーク
 
爆速
現状 Hadoop に組み込まれていない
今後 Avro ベースになるはず
要注目
他にも
Cascading
まとめ
Hadoop
ひとつの ミドルウェア
ではなく
複数ミドルウェアを 支える
プラットフォーム
Have fun with Hadoop family !

More Related Content

はやわかりHadoop