Asakusa on Spark - æ€¥ãŒã°å›žã‚Œã€é¸ã¶ãªã‚‰è¿‘é“

Asakusa on Spark

AsakusaãŒSparkä¸Šã§å‹•ãã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚
Asakusa on Spark (Developer Preview) — Asakusa Framework Developer Preview 0.2.2 documentation

ã™ã§ã«å®Ÿéš›ã«æœ¬ç•ªã«åˆ©ç”¨ã—ã¦ã„ã¾ã™ã€‚
ノーチラス・テクノロジーズがさくらインターネットにAsakusa Frameworkで開発した大規模データの高速処理基盤を導入し、顧客単位での精度の高い原価計算を実現高速処理基盤はApache Spark™で構築 | NAUTILUS

OSSã¨ã—ã¦ã®å…¬é–‹ã‚’è¡Œã„ã¾ã—ãŸã®ã§ã€å†…å®¹ã‚„ä½ç½®ã¥ã‘ã‚’ã¾ã¨ã‚ã¦ãŠãã¾ã™ã€‚ä¾‹ã«ã‚ˆã£ã¦ãƒŽãƒ¼ãƒãƒ©ã‚¹ã¯ç¤¾å†…ã§ã„ã‚ã‚“ãªæ„è¦‹ã¯å½“ç„¶å‡ºã¦ã„ã¾ã™ãŒã€ä»Šå›žã¯æ¦‚ãä¸€è‡´ã—ã¦ã„ã‚‹æ„Ÿã˜ã§ã™ã€‚

ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹

æ¦‚ãã€Œæ¥å‹™ãƒãƒƒãƒå‡¦ç†ã¨ã„ã†è¦³ç‚¹ã§è¦‹ã‚Œã°ã€ã™ã¹ã‹ã‚‰ãHadoopMapReduceã‚ˆã‚Šã€Sparkã®ã»ã†ãŒé«˜é€Ÿã«å‡¦ç†ã‚’çµ‚ãˆã‚‹ã“ã¨ãŒã§ãã‚‹ã€ã¨ã„ã†ã®ãŒçµè«–ã«ãªã£ã¦ã„ã¾ã™ã€‚ãƒŽãƒ¼ãƒãƒ©ã‚¹ã®æŒã£ã¦ã„ã‚‹ãƒ¦ãƒ¼ã‚¹ã‚±ãƒ¼ã‚¹ã§ã¯ã€ã»ã¼ã™ã¹ã¦ã®ã‚±ãƒ¼ã‚¹ã§ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹æ”¹å–„ãŒè¦‹ã‚‰ã‚Œã¾ã—ãŸã€‚ãŠãŠã‚ˆã3å€ã‹ã‚‰5å€ã®ç¨‹åº¦ã®å®Ÿè¡Œæ™‚é–“ã®çŸç¸®ãŒé”æˆã•ã‚Œã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯ä¸€åº¦ã®ãƒãƒƒãƒã§å‡¦ç†ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚ºãŒã€æ¦‚ãæ•°ç™¾GByteä»¥ä¸‹ç¨‹åº¦ã§ã€ã‹ã¤ã€ã‹ãªã‚Šã®ç¨‹åº¦ã§è¤‡é›‘ãªå‡¦ç†ã«ãªã£ã¦ã„ã‚‹ã‚±ãƒ¼ã‚¹ã§ã®ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã«ãªã£ã¦ã„ã¾ã™ã€‚ã•ã™ãŒã«éžå¸¸ã«å˜ç´”ãªå‡¦ç†ï¼ˆä¾‹ï¼šå˜ç´”é›†è¨ˆä¸€ç™ºã ã‘ï¼‰ã§ã€ä¸€åº¦ã«å‡¦ç†ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚ºãŒæ¦‚ã500Gbyteä»¥ä¸Šã®ã‚±ãƒ¼ã‚¹ã§ã¯ã€MapReduceã«è»é…ãŒã‚ãŒã‚‹ã¨æ€ã„ã¾ã™ãŒã€ãã®ã‚±ãƒ¼ã‚¹ã§ã™ã‚‰Sparkã‚‚ãã‚Œãªã‚Šã®ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒå‡ºã—ã¤ã¤ã‚ã‚Šã¾ã™ã€‚

ãªãœSparkã«ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹å„ªä½ãŒã‚ã‚‹ã‹ã€ã¨ã„ã†ã¨ã€ã“ã‚Œã¯å‰²ã¨å˜ç´”ã«HadoopMapReduceã®ã‚ªãƒ¼ãƒãƒ¼ãƒ˜ãƒƒãƒ‰ãŒå¤§ããã€ã“ã‚Œã‚’Sparkã§ã¯å–ã‚Šé™¤ã„ã¦ã„ã‚‹ã¨ã„ã†ã“ã¨ã«ã¤ãã‚‹ã§ã—ã‚‡ã†ã€‚å··ã§ã¯ï¼ˆã¨ã„ã†ã‹Sparkã®å…¬å¼ã‚µã‚¤ãƒˆã§ã¯ï¼‰ã‚ªãƒ³ãƒ¡ãƒ¢ãƒªãƒ¼å‡¦ç†ã«ã‚ˆã‚Šãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒå‡ºã¦ã„ã‚‹ã¨ã„ã‚ã‚Œã¦ã„ã‚‹ãŒå¤šã„ã®ã§ã™ãŒã€å®Ÿéš›ã¯ãã†ã§ã‚‚ã‚ã‚Šã¾ã›ã‚“ã€‚ã‚‚ã£ã¨ã‚‚IOã‚³ã‚¹ãƒˆã®ã‹ã‹ã‚‹ãƒŽãƒ¼ãƒ‰é–“ã®ã‚·ãƒ£ãƒƒãƒ•ãƒ«ãƒ‡ãƒ¼ã‚¿è»¢é€æ™‚ã®ãƒ‡ã‚£ã‚¹ã‚¯å¼·åˆ¶æ›¸ãå‡ºã—ã¯HadoopMapReduceã¨åŒã˜ã§ã‚ã‚Šã€åŒã˜ã‚ˆã†ã«ã‚³ã‚¹ãƒˆãŒã‹ã‹ã‚Šã¾ã™ã€‚Sparkã§ã„ã†ã¨ã“ã‚ã®ã€ã‚ªãƒ³ãƒ¡ãƒ¢ãƒªãƒ¼å‡¦ç†ã¨ã„ã†ã®ã¯ã€ç¹°ã‚Šè¿”ã—å‡¦ç†ã®ã¨ãã«æ˜Žç¤ºçš„ã«ã‚ãƒ£ãƒƒã‚·ãƒ¥ãŒä½¿ãˆã‚‹ã¨ã„ã†ã“ã¨ã ã¨æ€ã„ã¾ã™ãŒã€ç¾å®Ÿã®å‡¦ç†ã§ã¯åŒã˜ãƒ‡ãƒ¼ã‚¿ã®ç¹°ã‚Šè¿”ã—å‡¦ç†ãŒä¸å¿ƒã§ã§ãã¦ã„ã‚‹ãƒãƒƒãƒãŒãã†ãã†ã‚ã‚‹ã‚ã‘ã§ã¯ãªãã€ç¹°ã‚Šè¿”ã—å‡¦ç†ã§æ˜Žç¤ºã‚ãƒ£ãƒƒã‚·ãƒ¥ãŒä½¿ãˆã‚‹ã‹ã‚‰ã¨ã„ã£ã¦ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒä¸€èˆ¬ã«10å€ã¨ã‹ã«ãªã‚‹ã‚ã‘ãŒã‚ã‚Šã¾ã›ã‚“ã€‚å†·é™ã«è€ƒãˆã‚Œã°æ™®é€šã«ãŠã‹ã—ã„ã¨ã‚ã‹ã‚‹è©±ãªã®ã§ã™ãŒã€ãƒˆãƒ¬ãƒ³ãƒ‡ã‚£ãƒ¼ãªæŠ€è¡“ã‚„ä¼šç¤¾ãŒã€VCã‹ã‚‰ãŠé‡‘ã‚’é›†ã‚ã‚‹ã¨ãã«ã¯ã‚ˆãã‚ã‚‹ã‚¹ãƒˆãƒ¬ãƒƒãƒã®è©±ãªã®ã§ã€ã¾ãä»•æ–¹ãŒãªã„è©±ã§ã™ã‚ãã€‚

èª²é¡Œã«ãªã£ã¦ã„ãŸHadoopMapReduceã®ã‚ªãƒ¼ãƒãƒ¼ãƒ˜ãƒƒãƒ‰ã¨ã¯ä½•ã‹ã¨ã„ã†ã¨ã€è‡ªåˆ†ã®è¦‹ã‚‹ã¨ã“ã‚ã§ã¯å¤§ããäºŒã¤ã‚ã£ã¦ã€ä¸€ã¤ã¯ã™ã¹ã¦ã®å‡¦ç†ã‚’ç„¡ç†çŸ¢ç†Mapãƒ»Reduceã®å½¢ã«ã—ãªã‘ã‚Œã°ãªã‚‰ãªã„ã€ã¨ã„ã†ç‚¹ã§ã™ã€‚ã“ã‚Œã¯ã‚ˆãè¨€ã‚ã‚Œã‚‹ã¨ã“ã‚ã§ã¯ã‚ã‚Šã¾ã™ãŒã€HadoopMapReduceã§ã¯ã™ã¹ã¦ã®å‡¦ç†ã‚’Mapãƒ»Reduceã®å½¢ã«å¤‰å½¢ã—ã€ã‹ã¤ã“ã®é †åºã§å®Ÿè¡Œã™ã‚‹å ´åˆã¯ã©ã†ã—ã¦ã‚‚ç„¡é§„ãŒç™ºç”Ÿã—ã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ã€ã“ã‚Œã¯Map/Reduceã®å½¢ã«ã™ã‚‹ã“ã¨ã«ã‚ˆã£ã¦ä¸¦åˆ—åˆ†æ•£å‡¦ç†ãŒå®Ÿè¡Œã—ã‚„ã™ã„ã€ã¨ã„ã†ãƒ¡ãƒªãƒƒãƒˆã®è£è¿”ã—ã§ã™ãŒã€ã„ã‚ã„ã‚ãªå‡¦ç†ã‚’ã—ã¦ã„ãã‚ˆã†ã«ãªã£ã¦ãã‚‹ã¨ã€ã•ã™ãŒã«ãƒ‡ãƒ¡ãƒªãƒƒãƒˆãŒç›®ç«‹ã¡ã¾ã™ã€‚äºŒã¤ç›®ã¯Mapãƒ»Reduceã®ã‚¿ã‚¹ã‚¯å‡¦ç†ãŒå®Ÿæ…‹ã¨ã—ã¦ã¯ãã‚Œãžã‚ŒãŒç‹¬ç«‹ã—ãŸjvmã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã«ãªã£ã¦ã„ã‚‹ç‚¹ã§ã™ã€‚Mapãƒ»Reduceã®ã‚¿ã‚¹ã‚¯ãŒè¡Œã‚ã‚Œã‚‹ãŸã³ã«ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®èµ·å‹•ãƒ»çµ‚äº†ãŒè¡Œã‚ã‚Œã‚‹ã‚ã‘ã§ã€jvmã®å†åˆ©ç”¨ã‚ªãƒ—ã‚·ãƒ§ãƒ³ãŒã‚ã‚‹ã¨ã¯ã„ãˆã€ã“ã®ã‚ªãƒ¼ãƒãƒ¼ãƒ˜ãƒƒãƒ‰ã¯ã‹ãªã‚Šå¤§ãã„ã€‚

ä¸Šè¨˜ã®äºŒç‚¹ã¯å¤§è¦æ¨¡ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹å˜ç´”å‡¦ç†ã§ã‚ã‚Œã°ã€ãã‚Œã»ã©ã‚³ã‚¹ãƒˆã«ãªã‚Šã¾ã›ã‚“ãŒã€DAGãƒ™ãƒ¼ã‚¹ã§1000ã‚¹ãƒ†ãƒ¼ã‚¸ã‚’è¶…ãˆã‚‹ã‚ˆã†ãªã‚±ãƒ¼ã‚¹ã§ã‚ã‚Œã°ã€ä¸‹æ‰‹ã‚’ã™ã‚‹ã¨ç·ã‚³ã‚¹ãƒˆã®5å‰²ãŒã“ã®ã‚ªãƒ¼ãƒãƒ¼ãƒ˜ãƒƒãƒ‰ã«ãªã‚‹ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚Sparkã§ã¯ã€ä¸Šè¨˜ã®èª²é¡Œã‚’ãã‚Œã„ã«ã¨ã‚Šã¯ã‚‰ã£ã¦ã„ã¾ã™ã€‚ã™ãªã‚ã¡ã€å‡¦ç†ã‚’ç„¡ç†ã«Mapãƒ»Reduceã®å½¢ã§ã®é †åºå®Ÿè¡Œã‚’ã—ã¦ã„ã‚‹ã‚ã‘ã§ã‚‚ãªãã€ã¾ãŸã‚¸ãƒ§ãƒ–å®Ÿè¡Œè‡ªä½“ã‚’æ™®é€šã«ä¸€ã¤ã®ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã¨ã—ã¦ç®¡ç†ã—ã¦ã„ã¾ã™ã€‚ã—ãŸãŒã£ã¦ã€å˜ç´”ã«HadoopMapReduceã‹ã‚‰Sparkã«å¤‰æ›´ã™ã‚‹ã ã‘ã§ã€ã‚ªãƒ¼ãƒãƒ¼ãƒ˜ãƒƒãƒ‰ã®ã‚³ã‚¹ãƒˆãŒå‰Šæ¸›ã•ã‚Œã‚‹ã“ã¨ã«ãªã£ã¦ã—ã¾ã£ã¦ã„ã¾ã™ã€‚

HadoopMapReduceã®çµ‚ç„‰

ã‹ãªã‚Šã®å¤§è¦æ¨¡ãªãƒ‡ãƒ¼ã‚¿å‡¦ç†ã®ã‚»ã‚°ãƒ¡ãƒ³ãƒˆã‚’é™¤ã„ã¦ã€ç¾çŠ¶ã®Sparkã¯HadoopMapReduceã¨æ¯”è¼ƒã™ã‚‹é™ã‚Šã«ãŠã„ã¦ã¯ã€ã»ã¼ä¸€æ–¹çš„ã«å„ªã‚Œã¦ã„ã‚‹ã¨è¨€ã£ã¦è‰¯ã„ã§ã—ã‚‡ã†ã€‚ä»Šå¾Œã¯HadoopMapReduceã§å‹•ã„ã¦ã„ã‚‹ã»ã¼å¤§éƒ¨åˆ†ã®æ¥å‹™ç³»ã®å‡¦ç†ã¯Sparkã«ï¼ˆå¯èƒ½ã§ã‚ã‚Œã°ï¼‰ç§»è¡Œã™ã‚‹ã¨æ€ã„ã¾ã™ã€‚HadoopãŒç™»å ´ã—ãŸæ™‚åˆ†ã§ã¯ã€å¤§è¦æ¨¡ãƒ‡ãƒ¼ã‚¿ï¼ˆç‰¹ã«weblogã‚„lifelogï¼‰ã®ä¸€æ–‰é›†è¨ˆãŒä¸»è¦ç”¨é€”ã§ã—ãŸãŒã€ç¾çŠ¶ã§ã¯ã€ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹æ“ä½œã¯å˜ç´”ãªGroupByã§ã¯ãªãã€ã•ã¾ã–ã¾ãªæ“ä½œã‚’è¦æ±‚ã•ã‚Œã¤ã¤ã‚ã‚Šã¾ã™ã€‚ã“ã®ã‚ˆã†ãªçŠ¶æ³ã§ã€ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã§è¦‹ã‚Œã°ã€HadoopMapReduceã§å‹•ã‹ã—ç¶šã‘ã‚‹ãƒ‡ãƒ¡ãƒªãƒƒãƒˆã¯ä½™ã‚Šã«ã‚‚å¤§ãã„ã€‚MapReduceã«å¯¾ã™ã‚‹æ”¹å–„ã¯ã™ã§ã«å°è¦æ¨¡ãªã‚‚ã®ã®ã¿ã¨ãªã£ã¦ãŠã‚Šã€Sparkã‹ã‚‰æ¯”ã¹ã¦å‡¦ç†æ™‚é–“ãŒ3ã€œ5å€ã‹ã‹ã‚‹ã“ã¨ã‚’é‘‘ã¿ã¦ã‚‚ã€HadoopMapReduceä¸Šã§ã®ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã«ç¶™ç¶šæŠ•è³‡ã‚’è¡Œã†ã“ã¨ã¯ã‚ã¾ã‚Šã«ã‚‚åŠ¹çŽ‡ãŒæ‚ªã„ã€‚ã‚‚ã¡ã‚ã‚“å¤§é‡ãƒ‡ãƒ¼ã‚¿ã®å˜ç´”é›†è¨ˆã§ã‚ã‚Œã°ã€ã¾ã ã¾ã HadoopMapReduceã«åˆ†ãŒã‚ã‚‹ã®ã§ã€ãã®ã‚ˆã†ãªä»•çµ„ã¿ã¯ãã®ã¾ã¾é‹ç”¨ã—ã¦ã„ã‚Œã°ã‚ˆã„è©±ã§ã€ç„¡ç†ã‚„ã‚ŠSparkã«ç§»è¡Œã™ã‚‹å¿…è¦ã‚‚ãªã„ã§ã—ã‚‡ã†ã€‚

ç‰¹ã«ã€æˆ‘ã€…ãŒãƒ•ã‚©ãƒ¼ã‚«ã‚¹ã—ã¦ã„ã‚‹ã‚ˆã†ãªã€ç‰¹ã«ä¼æ¥ã®æ¥å‹™ç³»ã®ãƒãƒƒãƒå‡¦ç†ã§ã¯HadoopMapReduceã‚’åˆ©ç”¨ã™ã‚‹ãƒ¡ãƒªãƒƒãƒˆã¯ã»ã¼ã‚¼ãƒã§ã™ã€‚ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚ºã‚„å‡¦ç†ã®è¤‡é›‘æ€§ã‹ã‚‰è¦‹ã¦ã‚‚ã€Sparkã«è»é…ãŒã‚ãŒã‚Šã¾ã™ã€‚ä»®ã«ã€HadoopMapReduceã‹ã‚‰Sparkã«ç§»è¡Œã§ããªã„ã¨ã™ã‚Œã°ã€ãã‚Œã¯ã‚ã¾ã‚Šã«å¤§é‡ã®å‡¦ç†ã‚’è£¸ã®MapReduceã§æ›¸ãã™ãŽãŸã¨ã„ã†ã“ã¨ã«ãªã‚‹ã®ã§ã¯ãªã„ã§ã—ã‚‡ã†ã‹ï¼Ÿã€€4å¹´å‰ã®Asakusaã®ãƒªãƒªãƒ¼ã‚¹å½“åˆã‹ã‚‰ã€MapReduceã‚’è£¸ã§æ›¸ãã“ã¨ã¯ã‚¢ã‚»ãƒ³ãƒ–ãƒ©ã§å‡¦ç†ã‚’è¨˜è¿°ã™ã‚‹ã“ã¨ã¨ãã‚Œã»ã©å¤§å·®ã¯ãªãã€ã»ã©ãªããƒ¡ãƒ³ãƒ†ã§ããªããªã‚‹ã ã‚ã†ã—ã€ãƒ‡ãƒ¡ãƒªãƒƒãƒˆãŒã©ã‚“ã©ã‚“å¤§ãããªã‚Šã¾ã™ã‚ˆã¨ã€ã‚ã‚Šã¨å£°ã‚’å¤§ã«ã—ã¦è¨€ã£ã¦ããŸãŒã€ç¾å®Ÿã¨ãªã‚Šã¤ã¤ã‚ã‚‹æ„Ÿã‚‚ã—ã¾ã™ã€‚HadoopMapReduceã¯ã€ã»ã¼ã„ã‚ã‚†ã‚‹ã€Œãƒ¬ã‚¬ã‚·ãƒ¼ã€è³‡ç”£ã«ãªã‚Šã¤ã¤ã‚ã‚Šã¾ã™ã€‚

Sparkã¯ç„¡æ•µãªã®ã‹ï¼Ÿ

ã§ã¯Sparkã¯ãã‚Œã»ã©ç„¡æ•µãªã®ã‹ï¼Ÿã¨ã„ã†ã“ã¨ã§ã™ãŒã€å½“ãŸã‚Šå‰ã§ã™ãŒã€ç„¡æ•µã§ã¯ãªã„ã§ã™ã€‚ï¼ˆã‚€ã—ã‚HadoopãŒéš™ã ã‚‰ã‘ã ã£ãŸã¨ã„ã†æ–¹ãŒæ£ã—ã„ï¼‰

ãƒ»è¨å®šã‚„ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ãŒé¢å€’
ç¾çŠ¶ã§ã¯ãŸã„ã¦ã„ã®å ´åˆã¯ã€ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒå‡ºãšã«çŽ‰ç •ã™ã‚‹ã“ã¨ãŒå¤šã„ã§ã—ã‚‡ã†ã€‚åŠ ãˆã¦å®‰å®šã—ã¦ç¨¼å‹•ã•ã›ã‚‹ã«ã¯çµŒé¨“ãŒå¿…è¦ã§ã™ã€‚ã“ã‚Œã¯ã‚‚ã†HadoopMapReduceã®ãƒ¡ãƒªãƒƒãƒˆï¼ˆè¨å®šãŒåˆ†æ•£å‡¦ç†åŸºç›¤ã®ã‚ã‚Šã«ã¯ç°¡å˜ï¼‰ã¨ãƒ‡ãƒ¡ãƒªãƒƒãƒˆï¼ˆãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã®ä¸Šé™ãŒå‰²ã‚Šã¨ç°¡å˜ã«å‡ºã¦ã—ã¾ã†ï¼‰ã®äº¤æ›ã«è¦‹ãˆã¾ã™ã€‚Sparkã§ã¯ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã‚’å‡ºã™ãŸã‚ã«ã€ã‚¢ãƒ¬ã‚„ã‚³ãƒ¬ã‚„ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’è¨å®šã—ã¦ã€ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã‚’å‡ºã™ãŸã‚ã«è©¦è¡ŒéŒ¯èª¤ã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ã“ã‚Œã‚’ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã”ã¨ã«è¡Œã†å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ã•ã‚‰ã«Yarnã§å®Ÿè¡Œã•ã›ã‚‹ã«ã¯ã€Yarnã®è¨å®šã‚‚é‡è¦ã«ãªã‚‹ã€ã¨ã„ã†ã“ã¨ã§ã€ã“ã‚Œã¯ç¢ºã‹ã«é¢å€’ã§ã™ã€‚åºƒç¯„å›²ã«ã‚ãŸã£ã¦æ•´åˆæ€§ã®ã¨ã‚ŒãŸè¨å®šãŒå¿…è¦ã§ã‚ã‚Šã€ã“ã‚Œã¯ãªã‹ãªã‹é›£æ˜“åº¦ãŒé«˜ã„ã§ã™ã€‚å¾ã€…ã«ãƒŽã‚¦ãƒã‚¦ãŒå…±æœ‰åŒ–ã•ã‚Œã¦ã„ã¾ã™ãŒã€ã§ãã‚‹ã“ã¨ãŒå¢—ãˆã‚‹ã¨ã„ã†ã“ã¨ã®ãƒ‡ãƒ¡ãƒªãƒƒãƒˆã¯ã‚¼ãƒã«ã¯ãªã‚‰ãªã„ã§ã—ã‚‡ã†ã€‚ã¨ã¯ã„ãˆã€ã“ã‚Œã¯ã¾ã•ã«æ™‚é–“ã®å•é¡Œã§ã™ãã€‚

ãƒ»åŸºæœ¬çš„ãªã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£ã®å•é¡Œã€‚
ã“ã‚Œã¯ã„ã‚ã„ã‚æ„è¦‹ãŒã‚ã‚Šã¾ã™ãã€‚

ã²ã¨ã¤ã¯å„å‡¦ç†ã®è«–ç†çš„ãªå‡ºåŠ›ãƒãƒ¼ãƒˆãŒã²ã¨ã¤ã§ã‚ã‚‹ã“ã¨ã§ã™ã€‚ã»ã¼ä¼¼ãŸã‚ˆã†ãªãƒŸãƒ‰ãƒ«ã®Tezã¯è¤‡æ•°å–ã‚Œã¾ã™ãã€‚å‡¦ç†ã‚’ãƒ–ãƒ©ãƒ³ãƒã•ã›ã‚‹ã‚ˆã†ãªãƒ•ãƒãƒ¼åˆ¶å¾¡ã‚’è¡Œã†å ´åˆã¯ã€åŸºæœ¬çš„ã«ç„¡ç†ãŒç™ºç”Ÿã—ã¾ã™ã€‚å®Ÿéš›ã€Asakusaã®å®Ÿè¡ŒåŸºç›¤ã®ã‚¿ãƒ¼ã‚²ãƒƒãƒˆã¨ã™ã‚‹ã¨ãã‚‚å•é¡Œã«ãªã‚Šã¾ã—ãŸã€‚Asakusaã§ã¯ã‚ã®æ‰‹ã“ã®æ‰‹ã§è§£æ±ºã—ã¦ã„ã‚‹ãŒã€æ™®é€šã«å®Ÿè£…ã™ã‚‹ã®ã¯ã‹ãªã‚Šç„¡ç†ç‹ã«ãªã‚Šã¾ã™ã€‚

ãµãŸã¤ã‚ã¯Shuffleæ™‚ç‚¹ã®å¼·åˆ¶æ›¸ãå‡ºã—ã€‚è¨€ã†ã¾ã§ã‚‚ãªãã€ã“ã‚Œã¯ã„ã¡ã„ã¡ã‚³ã‚¹ãƒˆãŒã‹ã‹ã‚‹ã®ã§ã€‚ã¨ã¯ã„ãˆã€è³›å¦ä¸¡è«–ã§ã™ã€‚ç‰¹ã«å‡¦ç†ã®çµ‚ç›¤ã§ã€å‰åŠæˆ¦ã§åˆ©ç”¨ã—ãŸãƒ‡ãƒ¼ã‚¿ã‚’ã‚‚ã†ä¸€åº¦ä½¿ã†ã‚ˆã†ãªå ´åˆãŒã‚ã‚Œã°ã€æ›¸ãå‡ºã—ã¯æœ‰åŠ¹ã§ã™ã€‚æ”¾ã£ã¦ãŠã‘ã°ãã®ã¾ã¾ãƒ¡ãƒ¢ãƒªãƒ¼ã‚’å æœ‰ã—ã¦ã—ã¾ã†ã‹ã‚‰ãã€‚ã¾ãŸã€æ”¹ã‚ã¦è¨€ã†ã¾ã§ã‚‚ãªã„ã§ã™ãŒã€ãƒŽãƒ¼ãƒ‰ãƒ»ãƒ•ã‚§ã‚¤ãƒ«ã«ã‚‚å½“ç„¶å¼·ã„ã€‚ãã‚‚ãã‚‚RDDã®ç™ºæƒ³ã‹ã‚‰ã™ã‚‹ã¨ã€æ›¸ãå‡ºã—ã¯ç™ºæƒ³ã®æ ¹æœ¬ã«ã‚ã‚‹ã‚‚ã®ãªã®ã§ã€åå¯¾ã™ã‚‹ã‚„ã¤ã¯ä½¿ã†ãªã¨ã„ã†è©±ã«ã‚‚ãªã‚‹ã‚ˆã†ã§ã™ã€‚ï¼ˆã‚“ã˜ã‚ƒãƒ¼ã€ã‚µã‚¤ãƒˆã«å ‚ã€…ã¨in memory å‡¦ç†ã¨ã‹æ›¸ãã‚“ã˜ã‚ƒããƒ¼ã‚ˆã€ã¨ã‹æ€ã„ã¾ã™ãŒãƒ»ãƒ»ã€‚å®Ÿéš›ã€æ—©ã¨ã¡ã‚Šã—ã¦ã„ã‚‹äººã‚‚å¤šæ•°ã„ã¾ã™ã—ï¼‰

ã¨ã¯ã„ãˆã€ã©ã“ã§ä½•ã‚’ä½¿ã†ã‹ã¯å‡¦ç†å…¨ä½“ã‚’ã‚³ãƒ³ãƒ‘ã‚¤ãƒ«ã™ã‚‹æ™‚ç‚¹ã§ã‚ã‚‹ç¨‹åº¦ç›®æ˜Ÿã¯ã¤ãã®ã§ã€ã¡ã‚ƒã‚“ã¨è¦‹æ¸¡ã›ã‚‹ä»•çµ„ã¿ãŒã‚ã‚Œã°ã€Shuffleã‚’ã„ã¡ã„ã¡æ›¸ãå‡ºã™ã®ã¯ç„¡é§„ã§ã‚ã‚‹ã“ã¨ã¯é–“é•ã„ãªã„ã§ã—ã‚‡ã†ã€‚å¿…è¦ãªã¨ãã ã‘æ›¸ã‘ã‚Œã°ååˆ†ã ã¨æ€ã„ã¾ã™ã€‚ä»Šå¾Œã®ãƒ¡ãƒ¢ãƒªãƒ¼ã®å®¹é‡ã¯å¤ªé™½ç³»ã®å¤§ãã•ï¼ˆæ¯”å–©ï¼‰ã¾ã§åºƒãŒã‚‹å¯èƒ½æ€§ãŒã‚ã‚‹ã®ã§ã€plannerãŒè³¢ããªã£ãŸã€ã—ã£ã‹ã‚Šã—ãŸåˆ†æ•£å‡¦ç†ã®ç®¡ç†åŸºç›¤ãŒã§ã¦ãã‚Œã°ï¼ˆã¾ã ãªã„ã‘ã©ï¼‰ãŸã¶ã‚“Sparkã¯ã‚ã‚Šã¨ã‚ã£ã•ã‚Šè² ã‘ã¾ã™ã€‚ãƒ»ãƒ»ãƒ»å½“åˆ†å…ˆã ã¨æ€ã„ã¾ã™ãŒã€å…·ä½“çš„ã«ã„ã†ã¨Rack Scale Architectureãƒ™ãƒ¼ã‚¹ã®ãƒ¡ãƒ‹ãƒ¼ã‚³ã‚¢å‰æã®ã€å‰²ã¨ã‹ã£ã¡ã‚Šã—ãŸå‡¦ç†åŸºç›¤ãŒå‡ºãŸã¨ãã«ã¯ã€ã‹ãªã‚Šç°¡å˜ã«æ°´ã‚’ç©ºã‘ã‚‰ã‚Œã‚‹ã‚ˆãªã‚ãƒ»ãƒ»ãƒ»ã¨ã‹æ€ã„ã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ã€ãã®å ´åˆã¯Hadoopã¯æ–‡å—é€šã‚Šè±¡ãªã¿ã®ã‚¹ãƒ”ãƒ¼ãƒ‰ã®æ‰±ã„ã«ãªã‚‹ã¨ã¯æ€ã„ã¾ã™ãŒã€‚

Asakusaè‡ªä½“ã®å¤§å¹…ãªã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£ã®å¤‰æ›´

ã•ã¦ã€ä»Šå›žã¯Asakusaã®é–‹ç™ºé™£ã®é ‘å¼µã‚Šã‚‚ã‚ã£ã¦ã€ã‹ãªã‚Šå¤§å¹…ãªã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£ã®å¤‰æ›´ãŒè¡Œã‚ã‚Œã¦ã„ã¾ã™ã€‚å¾“å‰ã®Asakusaã®ã‚³ãƒ³ã‚»ãƒ—ãƒˆã‚’ç¶æŒã—ã¤ã¤ã€ã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ãŒã»ã¼å…¨é¢çš„ã«æ›¸ããªãŠã—ã«ãªã£ã¦ã„ã¾ã™ã€‚å¾“æ¥ã®Asakusaã¯AsakusaDSLã‹ã‚‰æœ€é©ãªMapReduceãƒ—ãƒã‚°ãƒ©ãƒ ã‚’ç”Ÿæˆã™ã‚‹ä»•çµ„ã¿ã«ãªã£ã¦ã„ã¾ã—ãŸãŒã€æ–°ã—ã„ã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ã¯ä¸€æ—¦ã€DAGã®ä¸é–“æ§‹é€ ã‚’ç”Ÿæˆã—ã€ãã®DAGã®ä¸é–“ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰Sparkã«æœ€é©ãªãƒã‚¤ãƒˆã‚³ãƒ¼ãƒ‰ã‚’ç”Ÿæˆã™ã‚‹ä»•çµ„ã¿ã«ãªã£ã¦ã„ã¾ã™ã€‚ã¤ã¾ã‚Šã€ä»Šå¾ŒSparkä»¥å¤–ã®ã€Œã‚ˆã‚Šé«˜é€ŸãªDAGã®å®Ÿè¡Œã‚¨ãƒ³ã‚¸ãƒ³ã€ãŒå‡ºã¦ããŸã¨ãã«ã¯ã€Sparkã®ãƒã‚¤ãƒˆã‚³ãƒ¼ãƒ‰ç”Ÿæˆéƒ¨åˆ†ã®ã¿ã‚’å…¥ã‚Œæ›¿ãˆã‚‹ã ã‘ã§ã€æ–°ãŸãªå®Ÿè¡Œç’°å¢ƒã«å¯¾å¿œã™ã‚‹ã“ã¨ãŒå¯èƒ½ã«ãªã£ã¦ã„ã¾ã™ã€‚ç¾çŠ¶ã€ãƒŽãƒ¼ãƒ‰åˆ†æ•£ç’°å¢ƒåŒ–ã§ã®å®Ÿè¡Œå½¢å¼ã®æ¨™æº–ãŒDAGã«ãªã‚Šã¤ã¤ã‚ã‚‹ã®ã¯ã€å‘¨çŸ¥ã®é€šã‚Šã§ã‚ã‚Šã€DAGã®å®Ÿè¡Œã‚¨ãƒ³ã‚¸ãƒ³ã¯Tezã‚„Flinkã‚’è¦‹ã‚‹ã¾ã§ã‚‚ãªãã€ä»Šå¾Œã‚‚ã„ã‚ã„ã‚å‡ºã¦ãã‚‹ã ã‚ã†ã¨ã¿ã¦ã„ã¾ã™ã€‚Asakusaã¯ãã®ã‚¨ãƒ³ã‚¸ãƒ³ã«å¯¾å¿œã—ã‚„ã™ãã™ã‚‹ãŸã‚ã«ã€ä»Šå›žæ ¹æœ¬ã®ã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£ã‚’å†æ§‹ç¯‰ã—ã¦ã„ã¾ã™ã€‚

ã“ã‚Œã¯ã€Asakusaã®æ„å‘³åˆã„ã®å¤‰åŒ–ã‚’ã‚‚ãŸã‚‰ã™ã¨æ€ã£ã¦ã„ã¾ã™ã€‚ãƒ¦ãƒ¼ã‚¶ãƒ¼ã¯AsakusaDSLã§å‡¦ç†ã‚’è¨˜è¿°ã—ã¦ãŠã‘ã°ã€ä»Šå¾Œã€ã‚ˆã‚Šé«˜é€Ÿãªå‡¦ç†ã‚¨ãƒ³ã‚¸ãƒ³ãŒé–‹ç™ºã•ã‚Œã¦ããŸã¨ã—ã¦ã‚‚ã€AsakusaãŒå¯¾å¿œã—ã•ãˆã™ã‚Œã°ã€ãã®ãƒ¡ãƒªãƒƒãƒˆã‚’äº«å—ã§ãã‚‹ã¨ã„ã†ã“ã¨ã«ãªã‚Šã¾ã™ã€‚ç‰¹ã«ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ãƒ»ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã‚’ã€Œã¾ã£ãŸãå¤‰æ›´ã™ã‚‹ã“ã¨ãªã—ã€ã«æ–°ãŸãªé«˜é€Ÿç’°å¢ƒã«ç§»è¡Œã§ãã‚‹ã¨ã„ã†ãƒ¡ãƒªãƒƒãƒˆã¯éžå¸¸ã«å¤§ãã„ã€‚å€‹äººçš„ã«ã¯ã€ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ãƒ»ãƒ†ã‚¹ãƒˆç’°å¢ƒã‚’ãã®ã¾ã¾æŒã£ã¦ã“ã‚Œã‚‹ã®ã¯ã€å¤§ãã„ã¨æ€ã£ã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯æ¥å‹™ç³»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®æŠ•è³‡å¯æ¬æ€§ã‚’å¤§å¹…ã«å‘ä¸Šã•ã›ã‚‹ã“ã¨ã«ãªã‚Šã¾ã™ã€‚Asakusaã«ã‚ˆã‚Šæ¥å‹™ã‚·ã‚¹ãƒ†ãƒ æŠ•è³‡ã‚µã‚¤ã‚¯ãƒ«ã¨åˆ†æ•£ç’°å¢ƒã®ãƒ©ã‚¤ãƒ•ã‚µã‚¤ã‚¯ãƒ«ã®ã‚®ãƒ£ãƒƒãƒ—ã‚’åŸ‹ã‚ã‚‹ã“ã¨ãŒå¯èƒ½ã«ãªã‚‹ã¨æ€ã£ã¦ã„ã¾ã™ã€‚

ä»Šå¾Œ

ã¾ãã“ã‚“ãªæ„Ÿã˜ã§ã™ã€‚æˆ‘ã€…ã¨ã—ã¦ã¯ã€Better Hadoopã¨ã—ã¦Sparkã‚’åˆ©ç”¨ã—ã¦ã„ã‚‹ã€ã¨ã„ã†ã®ã¨ã€Sparkã«å¯¾å¿œã™ã‚‹ã®ã¨åŒæ™‚ã«ã€ãã®å…ˆã‚‚è¦‹ãªãŒã‚‰Asakusaã®ã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£ã‚’äºˆå®šé€šã‚Šã«å¤‰ãˆã¾ã—ãŸã€ã¨ã„ã†ã¨ã“ã‚ã§ã™ã€‚æ£ç›´ãƒ™ãƒ¼ã‚¹ã§ã€Sparkã€ã‹ãªã‚Šé€Ÿã„ã§ã™ã€‚äºˆæƒ³ã‚ˆã‚Šã‚‚ã„ã„ã§ã™ããƒ»ãƒ»ãƒ»

Sparkã‚’ã¯ã˜ã‚ã€ä»Šå¾Œã®åˆ†æ•£ç’°å¢ƒã¯é«˜é€ŸåŒ–ãŒã¾ã™ã¾ã™é€²ã‚€ã§ã—ã‚‡ã†ã€‚ã„ã‚ã„ã‚ã¨ã§ãã‚‹ã“ã¨ãŒå¢—ãˆã‚‹ã¨æ€ã„ã¾ã™ã€‚ãƒ™ãƒ¼ã‚¹ãƒ‡ãƒ¼ã‚¿ãƒ¬ã‚¤ãƒ¤ãƒ¼ã¨ã—ã¦ã®HDFS-APIã¯é‰„æ¿ã ã¨æ€ã„ã¾ã™ã®ã§ã€HDFSäº’æ›ã«ãƒ‡ãƒ¼ã‚¿æºœã‚ã¦ãŠã„ã¦ã€å‡¦ç†åŸºç›¤ã ã‘ã»ã„ã»ã„å–ã‚Šæ›¿ãˆã‚‹ã¨ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒå‹æ‰‹ã«ã‚ãŒã‚‹ã¨ã„ã†æ„Ÿã˜ã«ãªã‚‹ã§ã—ã‚‡ã†ã€‚ã¨ã¯ã„ãˆã€ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãƒ¬ã‚¤ãƒ¤ãƒ¼ã‹ã‚‰è¦‹ã‚‹ã¨ã‚·ã‚¹ãƒ†ãƒ æŠ•è³‡ã®ãƒ©ã‚¤ãƒ•ã‚µã‚¤ã‚¯ãƒ«ã¨å®Ÿè¡ŒåŸºç›¤ã®ãƒ©ã‚¤ãƒ•ã‚µã‚¤ã‚¯ãƒ«ã®ã‚®ãƒ£ãƒƒãƒ—ãŒé€²è¡Œã—ã¾ã™ãŒã€ãã®è¾ºã‚’åŸ‹ã‚ã‚‹ã®ãŒAsakusaã£ã¦æ„Ÿã˜ã«ãªã‚‹ã¨ã„ã„ãªãã¨æ€ã£ã¦ã„ã¾ã™ã€‚

ãƒ»ãƒ»ãƒ»ã£ã¦æ°—ãŒã¤ã„ãŸã‚‰ä¸€å¹´ãã‚‰ã„æ”¾ç½®ã—ã¦ãŸã®ã§ã€ã¡ã‚‡ã£ã¨åçœã—ã¦ã¾ã™ã€‚æŸãƒ—ãƒã‚¸ã‚§ã‚¯ãƒˆã«ã©ã£ã·ã‚Šã ã£ãŸã®ã§ãƒ»ãƒ»ãƒ»
ä»Šå¾Œã¯ã§ãã‚Œã°2ãƒ¶æœˆã«1å›žãã‚‰ã„ã¯æ›´æ–°ã—ãŸã„ã¨æ€ã„ã¾ã™ã€‚ã™ã¿ã¾ã›ã‚“ã€‚