2013年夏のプログラミング・シンポジウム ビューティフルデータ(3) 午後2 #spro2013

関連リンク


(講演者の方は敬称略)

並列データ処理基盤を用いた並行バグ並列検査方式の検討 荒堀喜貴(東京工業大学)


目的: 並行バグ検査の高速化(並列化)

背景

前提とするプログラム実行モデル

  • 複数スレッドが共有メモリを並行アクセス
    • 並行 = 並列 + 擬似並列
    • スレッド操作は fork/join, lock/unlock, wait/notify
    • メモリモデルは Sequencial Consistency を仮定しない
事例
  • Mozilla とApacheのケース
    • Concurrency 並行処理のバグは、Mem メモリ操作のバグや Sem 意味依存のバグに比べて遥かに少ない

並行バグの検査に特化した専用ツール

競合解析を基にきわどいスレッドインタリーブを合成
Maple: Active Scheduling


イベント履歴に基づく競合解析
アクセスイベントeを5つ組として定義
メモリオブジェクト
スレッドIDロック集合
…



この方式の問題

  • イベント履歴に基づく競合解析の問題
    • 複数スレッドによるイベント履歴操作衝突で高オーバヘッド
    • 大規模分散データ処理技術の適用可能性が不明


マルチコアMapReduceによる競合解析

「リアルストレージワークロード特徴抽出のためのデータ収集蓄積技術」大江和一(富士通研究所)


ストレージのワークロードを自分たちで収集
2007.10 〜 2010.12
継続してログ収集ができたのは、最後の1.5年間


収集を行ったストレージシステム
スケールアウト型分散ストレージシステム
ワークロード収集を行った主なストレージシステム
Samba + backup : 35TB 数ヶ月単位のワークロードを収集
Samba 4.4TB (連続1.5年分)
生トレースの保存はあきらめ、1GB / min 単位で統計情報を抽出し、圧縮・保存


統計データの最大サイズ kb / 回 150 50
統計データの最大サイズ gb / 月 6.2 2.1
平均ユーザ数 1000 3000
最大IOPS 1500 2000


平均ドロップ率1%未満
全IOの7割が特定のブロックに集中


「ソーシャルデータを分析・可視化することで見えてくる人間行動」本郷寛(ユーザーローカル)

Twitter: バースト現象。ニュースの拡散性は指数的に減少していく


「単車の虎」に於けるアクセスログ収集・解析手法 今井陽太(Donuts)


データ量

  • 3GB / day
  • 3min 400GB
  • å¹´é–“ 4.8TB
  • Bzip2 圧縮


なぜBzip2か
お金がないのでストレージ買いたくないから