ラベル Hadoop の投稿を表示しています。 すべての投稿を表示
ラベル Hadoop の投稿を表示しています。 すべての投稿を表示


2010年11月22日月曜日

Hadoop (8) NTTデータによるHadoop報告書


このエントリーをはてなブックマークに追加


http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf

Twitterで紹介されてて見つけた。

 参考> NTTデータのHadoop報告書がすごかった

圧倒的なボリュームで、大規模な実践運用を想定して行われた検証とその報告。
事例を交えた開発手法の解説からMap/Reduceの基礎まで広く網羅。
ちょっとHadoopを使った後に読むと非常に役立ちます。


Hadoop
Hadoop
価格:4,830円(税込、送料別)


Hadoop (7) Yahoo!によるチューニングガイド


このエントリーをはてなブックマークに追加


綺麗にまとまってる。


2010年8月12日木曜日

Hadoop (6) NameNodeをRHCS/GFSでクラスタ化する A


このエントリーをはてなブックマークに追加


現在のHadoopにおけるHDFSはNameNodeが単一障害点となり、ダウンした場合一切の作業ができなくなってしまう。

Secondary Name Node はPrimaryのバックアップではなく、ジャーナル書き込み等を支援するノードのなるので注意。

そこで、Name ServerをRedHat標準のクラスタソフトであるRedHat Cluster Suiteと、Global File Systemを用いて可用性を保持させてみる。

GFSを使うメリットは全てのノードから等価にファイルシステムへアクセスできるため、RHCSで仮想IPの制御さえしてやれば、どのノードでもPrimary Name Nodeを起動できるようになる事。これはNFSでも実現できるが、細かなブロックアクセスが多い、Name NodeではGFSの方が性能を担保しやすい(と思う

■今回の環境は以下
RHEL5.5 クラスタ管理 192.168.1.101
・RHEL5.5 Primary Name Node 192.168.1.102
・RHEL5.5 Backup Name Node 192.168.1.103
・RHEL5.5 Secondary Name Node 192.168.1.104
・Solaris10 共有ストレージ(iSCSI)、192.168.1.10
・NameNodeの仮想アドレス 192.168.1.105
・NameNodeの仮想アドレス 192.168.1.106
・NameNodeの仮想アドレス 192.168.1.107

*このクラスタ構成はCentOSでも使える。が、RHCSは他のクラスタソフトに比べ、様々な障害に対して対応できるように設計されているため、構造がやや複雑なので、本番で使う場合は正規のサブスクリプションのあるRHEL APを推奨。
*ここでは動かすことに注力するので、細かな障害対応設定は省いているので注意。
*本当はネットワークはクラスタ通信用と分離した方が良いが、今回は全て同居させている。



2010年7月26日月曜日

Hadoop (5) 参考IBM「Hadoop 入門」


このエントリーをはてなブックマークに追加


アーキテクチャや処理内容が、図入り&サンプル入りですごいわかりやすい。

http://www-06.ibm.com/jp/domino01/mkt/cnpages7.nsf/page/default-0041751B

目次
 Hadoop とは
 Hadoop のアーキテクチャー
 Hadoop の導入と構成
 サンプルジョブによる動作確認
 スクリプトによるジョブの作成
 Pig の利用
 HBase の導入と構成
 参考資料


2010年7月25日日曜日

Hadoop (4) Pigによる対話的操作


このエントリーをはてなブックマークに追加


Hadoopの標準インターフェース hadoop xx xxxx ってのは対話式じゃないので、ちょっと使いにくい。
PigはHadoopのサブプロジェクトで、Hadoopを対話的に操作することが可能なインターフェースと、 MapReduceを効率的に行うための専用言語環境を提供してくれる。
Yahoo!なんかでも使われているっぽい。
Pigの素晴らしいところは、LISPのREPLのように、書いたコードをその場で実行しながら確かめられること。



Hadoop (3) 完全分散モード


このエントリーをはてなブックマークに追加


次に完全分散モードでの実行を試みる。


前回の続き
Hadoop (1) スタンドアロン
Hadoop (2) 疑似分散モード


関連項目
Solaris10 zone 設定
Solaris10 zone で止めておいた方がよいサービス
ssh で認証無しログインをする方法(公開鍵方式)

参考ページ
Hadoopセットアップ・・・このサイトの設定ファイルテンプレートは非常に有用。



2010年7月24日土曜日

Hadoop (2) 疑似分散モード


このエントリーをはてなブックマークに追加


前回の続き
Hadoop (1) スタンドアロン

設定ファイルをいじくる。



2010年7月23日金曜日

Hadoop (1) スタンドアロン


このエントリーをはてなブックマークに追加


前回構築したPXEネットワークインストール環境で4台のCentOSを立ち上げた。
バージョンは全て共通でCentOS5.5


ノード1:hdp01(GNOMEデスクトップ)
ノード2:hdp02(Server)
ノード3:hdp03(Server)
ノード4:hdp04(Server)
()内はインストール時に選択したインストールグループ

*全てSolaris10上のVirtualBox上に構築された仮想環境です。