9. Spark
vs.
Disk
I/O
• キャッシュ
• データセットのキャッシュ
• 計算結果のキャッシュ
➡Disk
I/O減
• RDD(Resillient
Distributed
Datasets)
• キャッシュはクラスタノード間で分散保持
➡一部が失われても復旧可能
10. Spark
vs.
task
launching
time
• 論文曰く、「fast
event-‐driven
RPC
libraryを使ったよ」
11. Spark
vs.
task
launching
time
• 論文曰く、「fast
event-‐driven
RPC
libraryを使ったよ」
• 5〜10sec
➡
5ms
• Ref.
“Shark:
SQL
and
Rich
AnalyWcs
at
Scale”
hYps://www.icsi.berkeley.edu/pubs/networking/ICSI_sharksql12.pdf
12. 結果、繰り返し処理の高速化
Ref.
“Spark:
A
framework
for
iteraWve
and
interacWve
cluster
compuWng”
hYp://laser.inf.ethz.ch/2013/material/joseph/LASER-‐Joseph-‐6.pdf