Hadoop Conference Japan 2014に参加しました
Hadoop Conference Japan 2014に参加しました。
最近あまり触ってなかったのですが、また案件で利用するニーズが出てきたので最新情報の収集目的です。
今日の収穫としてはこんな感じ
- Apache Spark
- 一週間の活動量がすごい
- 500 patch updates / w
- 200 updates / w
- 140 thread / w
- 80 merged patches / w
- 一週間の活動量がすごい
- Facebook Presto
- BigQuery
- HBaseは死火山←これはあんまり信じてない
- YARN使いたかったらHadoop 2.4系使わないとスケジューラで困る(CDH5はHadoop2.3 + patchだから大丈夫)
- YARNの初期設定はCDHかHDPのVMから設定ファイルも初期ディレクトリ構成もパクればいい。Ambariでもいいけど、直接設定見て書き換えられる方がrecipeにも書きやすい
- hivemallアルゴリズムすごく多くてすごいAROWとかCSWとか
- Apache Incubatorになるかもとか
- DATABRICKS CLOUDのダッシュボード便利そう
その他
- Sparkはオンメモリで高速にぶん回すこと考えるといろいろジョブ作成前に考えたりするから大変そう(溢れたらSpillしてくれるとはいえ)
- Prestoはジョブが落ちるけど、そっちの方が潔い気もするし、各種のDBとマージして処理できるのは助かる感じある
- Hive回して中間データを保持しておいてそいつをSpark/Prestoで処理する+直近データのみESとkibanaとかそういう構成が良さそう
今日のハイライト
- 一番大きい部屋の最前列で会場中に響き渡る音で黄色い象を殴打した @naoya_itoさん
ハドゥープさん撫でようとしてまちがって殴ってしまった URL
- 質疑応答で質問がないときの @hamaken さんの投げかけた言葉がひどい
パブリックに流すのに司会に人間性を問われてる登壇者 @ryu_kobayashi #HCJ2014