Hadoop Conference Japan 2014に参加しました

Hadoop Conference Japan 2014に参加しました。

最近あまり触ってなかったのですが、また案件で利用するニーズが出てきたので最新情報の収集目的です。

今日の収穫としてはこんな感じ

  • Apache Spark
    • 一週間の活動量がすごい
      • 500 patch updates / w
      • 200 updates / w
      • 140 thread / w
      • 80 merged patches / w
  • Facebook Presto
    • プラガブルよさ気
    • Facebookの中で使われてるリポジトリ←すごい
    • 各種DBマージして使える
    • DBに投げるときにすでにクエリを入れてフィルタリングしてから取り出すこともできる←mongohadoopでも実装してたの懐かしい
  • BigQuery
    • 公開してるBigQueryと中で使われてるのは同じ(リソース競合あり)
    • お高いお金を払えば専有できるリソースもあるって
    • DataFlowパイプライン処理のダッシュボード、流量とかソースからのLAGとか出てて素晴らしい。リアルタイムを謳うなら「どの程度」リアルタイムなのか出さないとな、と思った
    • millwheelの論文読みたい
    • flumeJava
  • HBaseは死火山←これはあんまり信じてない
  • YARN使いたかったらHadoop 2.4系使わないとスケジューラで困る(CDH5はHadoop2.3 + patchだから大丈夫)
  • YARNの初期設定はCDHHDPVMから設定ファイルも初期ディレクトリ構成もパクればいい。Ambariでもいいけど、直接設定見て書き換えられる方がrecipeにも書きやすい
  • hivemallアルゴリズムすごく多くてすごいAROWとかCSWとか
    • Apache Incubatorになるかもとか
  • DATABRICKS CLOUDのダッシュボード便利そう

その他

  • Sparkはオンメモリで高速にぶん回すこと考えるといろいろジョブ作成前に考えたりするから大変そう(溢れたらSpillしてくれるとはいえ)
  • Prestoはジョブが落ちるけど、そっちの方が潔い気もするし、各種のDBとマージして処理できるのは助かる感じある
  • Hive回して中間データを保持しておいてそいつをSpark/Prestoで処理する+直近データのみESとkibanaとかそういう構成が良さそう

今日のハイライト