Hadoop MapReduce ãƒ‡ã‚¶ã‚¤ãƒ³ãƒ‘ã‚¿ãƒ¼ãƒ³ ã¾ã¨ã‚ - ishikadoã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ å‹‰å¼·éŒ²

2ç« :MapReduceã®åŸºç¤Ž

å¤§è¦æ¨¡ãƒ‡ãƒ¼ã‚¿ã®å•é¡Œã«å¯¾ã™ã‚‹å®Ÿéš›çš„ãªã‚¢ãƒ—ãƒãƒ¼ãƒã¯åˆ†å‰²çµ±æ²»æ³•ã—ã‹ãªã„ã€‚
åˆ†å‰²çµ±æ²»æ³•ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®å®Ÿè£…ã«ã¯å¯¾å‡¦ã™ã‚‹å¿…è¦ã®ã‚ã‚‹å•é¡Œï¼ˆä½Žæ°´æº–ãªã‚‚ã®ã‚‚ï¼‰ãŒå¤šã„ã€‚
Hadoopã¯ãã®ä½Žæ°´æº–ãªå•é¡Œã‚’ãƒ—ãƒã‚°ãƒ©ãƒ ä½œæˆè€…ãŒè€ƒãˆãšã«ã™ã‚€æŠ½è±¡åŒ–ã•ã‚ŒãŸã‚¤ãƒ³ã‚¿ãƒ¼ãƒ•ã‚§ãƒ¼ã‚¹ã‚’æä¾›ã™ã‚‹ã€‚

Hadoopã¨googleã®map reduceå®Ÿè£…ã¯ç•°ãªã‚‹ç‚¹ãŒã‚ã‚‹ã€‚
googleã®å®Ÿè£…ã§ã¯reducerã«æ¸¡ã‚‹valueã®ä¸¦ã³ã‚’æŒ‡å®šã™ã‚‹ã‚»ã‚«ãƒ³ãƒ€ãƒªã‚½ãƒ¼ãƒˆã‚ãƒ¼ã‚’æŒ‡å®šã§ãã‚‹ã€‚
Hadoopã§ã¯ãã®ã‚ˆã†ãªæŒ‡å®šã¯ã§ããªã„ã€‚

mapã‚¿ã‚¹ã‚¯ã®æ•°ã¯å…¥åŠ›ãƒ‡ãƒ¼ã‚¿ã«ã‚ˆã‚Šå¯å¤‰ã ãŒã€Reduceã‚¿ã‚¹ã‚¯ã®æ•°ã¯åŽ³å¯†ã«ãƒ—ãƒã‚°ãƒ©ãƒžãŒæŒ‡å®šå¯èƒ½ã€‚
mapã‚¿ã‚¹ã‚¯ã‚„reduceã‚¿ã‚¹ã‚¯ã§ã¯å¤–éƒ¨çŠ¶æ…‹ã«å½±éŸ¿ã•ã‚ŒãŸå‡¦ç†ã‚’è¡Œã†ã“ã¨ã‚‚å¯èƒ½ã€‚

mapã‚¿ã‚¹ã‚¯ã¨reduceã‚¿ã‚¹ã‚¯ã®å®Ÿè¡Œæ™‚é–“ã¯ãã‚Œãžã‚Œã‚‚ã£ã¨ã‚‚é…ã„ã‚¿ã‚¹ã‚¯ã®å®Ÿè¡Œæ™‚é–“ã«è¦ç¨‹ã•ã‚Œã‚‹ã€‚
ã—ã‹ã—æŠ•æ£„çš„å®Ÿè¡Œã€ã¤ã¾ã‚ŠåŒã˜ã‚¿ã‚¹ã‚¯ã®è¤‡è£½ãŒåˆ¥ã€…ã®ãƒžã‚·ãƒ³ã§å®Ÿè¡Œã•ã‚Œã€æ—©ãçµ‚äº†ã—ãŸçµæžœã‚’ä½¿ç”¨ã™ã‚‹ã“ã¨ã«ã‚ˆã‚Šã€é«˜é€ŸåŒ–ãŒå¯èƒ½ã€‚
ã—ã‹ã—ã‚¿ã‚¹ã‚¯ã§ãŠã“ãªã‚ã‚Œã‚‹å‡¦ç†ãã®ã‚‚ã®ãŒé‡ã„å ´åˆã€å®Ÿè¡Œæ™‚é–“ã¯ã‚ã¾ã‚Šæ”¹å–„ã™ã‚‹ã“ã¨ã¯ã§ããªã„ã€‚

ã‚¿ã‚¹ã‚¯ã‚’å®Ÿè¡Œã™ã‚‹ãƒŽãƒ¼ãƒ‰ã¯ã€å¿…è¦ãªãƒ‡ãƒ¼ã‚¿ãŒã‚ã‚‹å ´æ‰€ã‹ã‚‰ãªã‚‹ã¹ãæœ€ã‚‚è¿‘ã„ãƒŽãƒ¼ãƒ‰ã‚’é¸ã‚“ã§è¡Œã†ã€‚
ã“ã‚Œã¯é€šä¿¡ã«ã‚ˆã‚‹å®Ÿè¡Œã‚³ã‚¹ãƒˆå¢—å¤§ã‚’é˜²ããŸã‚ã€‚

mapã¨reduceã®ã‚¿ã‚¹ã‚¯ã®ä»–ã«ã€combinerã¨partitionerãŒå˜åœ¨ã™ã‚‹ã€‚
combinerã¯mapã®çµæžœã‚’é›†ç´„ã™ã‚‹å½¹å‰²ã‚’ã€partitionerã¯ã©ã®ã‚ãƒ¼ã‚’æŒã¤ãƒ‡ãƒ¼ã‚¿ã‚’ã©ã®reduceã‚¿ã‚¹ã‚¯ã¸é€ã‚‹ã‹ã‚’æ±ºå®šã™ã‚‹å½¹å‰²ã‚’æŒã¤ã€‚

HDFSã¯ãƒ‡ãƒ¼ã‚¿ãƒŽãƒ¼ãƒ‰ã¨ãƒãƒ¼ãƒ ãƒŽãƒ¼ãƒ‰ã«åˆ†ã‹ã‚Œã¦ãŠã‚Šã€ãƒ‡ãƒ¼ã‚¿ãƒŽãƒ¼ãƒ‰ã¯ãƒ‡ãƒ¼ã‚¿ãã®ã‚‚ã®ã‚’ã€ãƒãƒ¼ãƒ ãƒŽãƒ¼ãƒ‰ã¯ãƒ‡ãƒ¼ã‚¿ã®æµã‚Œå…¨ä½“ã‚’ç®¡ç†ã™ã‚‹å½¹å‰²ã‚’æŒã¤ã€‚
ã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã¨ã®ãƒ‡ãƒ¼ã‚¿ã®é€šä¿¡ã¯ãƒ‡ãƒ¼ã‚¿ãƒŽãƒ¼ãƒ‰ãŒç›´æŽ¥è¡Œã†å½¢ã¨ãªã‚Šã€ãƒãƒ¼ãƒ ãƒŽãƒ¼ãƒ‰ãŒé€šä¿¡ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã¯ãƒ¡ã‚¿ãƒ‡ãƒ¼ã‚¿ã®ã¿ã¨ãªã‚‹ã€‚

HDFSã®ãƒãƒ¼ãƒ ãƒŽãƒ¼ãƒ‰ã¯ä»¥ä¸‹ã®è²¬ä»»ã‚’è² ã†ã€‚

ãƒ•ã‚¡ã‚¤ãƒ«ã®åå‰ç©ºé–“ã®ç®¡ç†
ãƒ•ã‚¡ã‚¤ãƒ«æ“ä½œã®åˆ¶å¾¡
ãƒ•ã‚¡ã‚¤ãƒ«ã‚·ã‚¹ãƒ†ãƒ ã®å…¨ä½“çš„ãªå¥å…¨æ€§ã®ç®¡ç†

MapReduce ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®åŠ¹çŽ‡çš„ãªè¨è¨ˆã«ã¯ä»¥ä¸‹ã®é¸æŠžã‚’ç†è§£ã™ã‚‹ã“ã¨ãŒå¿…è¦

æ¯”è¼ƒçš„å°‘æ•°ã®å¤§ããªã‚µã‚¤ã‚ºã®ãƒ•ã‚¡ã‚¤ãƒ«ã‚’ä¿å˜ã™ã‚‹(ã“ã‚Œã¯HDFSã®ãƒ–ãƒãƒƒã‚¯ã‚µã‚¤ã‚ºãŒå¤§ãã„ã€å…¥åŠ›ãƒ•ã‚¡ã‚¤ãƒ«ãŒå¢—ãˆã‚‹ã¨ãã®å…¥åŠ›ãƒ•ã‚¡ã‚¤ãƒ«åˆ†ã®mapã‚¿ã‚¹ã‚¯ãŒç”Ÿã˜ã‚‹ã®ã§)
åºƒã„è»¢é€å¸¯åŸŸã®ç¢ºä¿
å®‰ä¾¡ã ãŒä¿¡é ¼æ€§ãŒãã‚Œã»ã©é«˜ããªã„æ§‹æˆè¦ç´ ã«ã‚ˆã£ã¦ã‚·ã‚¹ãƒ†ãƒ ãŒæ§‹ç¯‰ã•ã‚Œã‚‹

3ç« :MapReduce ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®è¨è¨ˆ

ä¸»ãªãƒ‡ã‚¶ã‚¤ãƒ³ãƒ‘ã‚¿ãƒ¼ãƒ³

in-mapper-combining

combinerã‚’mapã‚¯ãƒ©ã‚¹ã®ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹ã«æŒãŸã›ã¦ãŠãæ–¹æ³•ã€‚
æœ¬æ¥ã®combinerã¯å¿…ãšå®Ÿè¡Œã•ã‚Œã‚‹ã‚‚ã®ã§ã¯ãªã„ãŸã‚ã€combinerã‚’å¿…ãšå®Ÿè¡Œã•ã›ãŸã„ã¨ãã¯ã“ã®æ–¹æ³•ãŒæœ‰å‘ã€‚
mapã‚¯ãƒ©ã‚¹ã®ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹ã¯åŒã˜ã‚¿ã‚¹ã‚¯ï¼Ÿã§ä½¿ã„ã¾ã‚ã•ã‚Œã‚‹ãŸã‚ã€ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹å¤‰æ•°ã¨ã—ã¦é€£æƒ³é…åˆ—ã‚’æŒã£ã¦ãŠã„ã¦ã€ãã“ã«ãƒ‡ãƒ¼ã‚¿ã‚’è“„ãˆã¦ãŠãã€é›†ç´„ã—ãŸçµæžœã‚’ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹ç ´æ£„æ™‚ã«å‡ºåŠ›ã™ã‚‹ãªã©ã€‚

pairsã¨stripes

pairsã¯å…±èµ·ã®èªžã‚’ãã‚Œãžã‚Œã®ãƒšã‚¢ã”ã¨ã«mapã§å‡ºåŠ›ã—ã€reduceã§é›†è¨ˆã™ã‚‹ã€‚
stripesã¯å…±èµ·ã™ã‚‹èªžã‚’ãƒãƒƒã‚·ãƒ¥ãƒžãƒƒãƒ—ã«è“„ãˆã€ãã‚Œè‡ªèº«ã‚’mapã§å‡ºåŠ›ã—ã€reduceã§é›†è¨ˆã€‚
stripesã®ã»ã†ãŒåŠ¹çŽ‡çš„ã ãŒã€ãƒ¡ãƒ¢ãƒªãŒã‚¹ã‚±ãƒ¼ãƒ©ãƒ“ãƒªãƒ†ã‚£ã®ãƒœãƒˆãƒ«ãƒãƒƒã‚¯ã¨ãªã‚‹ã€‚
ã©ã¡ã‚‰ã‚‚combainerã§é›†ç´„å‡¦ç†ãŒå¯èƒ½

order inversion

æ¼”ç®—ã®ä¸¦ã³ã‚’ã‚½ãƒ¼ãƒˆã®å•é¡Œã«å¤‰æ›ã™ã‚‹ã¨ã„ã†ã®ãŒåŸºæœ¬çš„ãªè€ƒãˆã€‚
ã‚½ãƒ¼ãƒˆã«ã‚ˆã‚Šå…ˆã«å¿…è¦ãªãƒ‡ãƒ¼ã‚¿ã‚’Reduceã«å…ˆã«é€ã‚‹ã“ã¨ãŒå¯èƒ½ã¨ãªã‚‹ï¼ˆã‚½ãƒ¼ãƒˆé †ã«reduceã§ã¯å‡¦ç†ã‚’è¡Œã†ãŸã‚ï¼‰ã€‚

value-to-key conversion

å€¤ã®ä¸€éƒ¨ã‚’ã‚ãƒ¼ã«ç§»ã™ã“ã¨ã§ã€ã‚½ãƒ¼ãƒˆã®ãŸã‚ã«map reduceã®å®Ÿè¡Œãƒ•ãƒ¬ãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯è‡ªèº«ã‚’ä½¿ã†ã“ã¨ãŒå¯èƒ½ã€‚

çªãè©°ã‚ã‚Œã°map reduceã§åŒæœŸã‚’åˆ¶å¾¡ã™ã‚‹ã¨ã„ã†ã“ã¨ã¯ã€ä»¥ä¸‹ã®ãƒ†ã‚¯ãƒ‹ãƒƒã‚¯ã‚’åŠ¹çŽ‡çš„ã«åˆ©ç”¨ã™ã‚‹ã¨ã„ã†ã“ã¨ã«é›†ç´„ã•ã‚Œã‚‹ã€‚

æ¼”ç®—ã«å¿…è¦ãªãƒ‡ãƒ¼ã‚¿ã‚’çµ„ã¿åˆã‚ã›ãŸè¤‡åˆåž‹ã®ã‚ãƒ¼ã¨å€¤ã®æ§‹ç¯‰
mapperã‚„reducerã§ã®ãƒ¦ãƒ¼ã‚¶ãƒ¼æŒ‡å®šã®åˆæœŸåŒ–åŠã³çµ‚äº†ã‚³ãƒ¼ãƒ‰ã®å®Ÿè¡Œ
ä¸é–“ã‚ãƒ¼ã®ã‚½ãƒ¼ãƒˆé †åºã®åˆ¶å¾¡

ä¸¦åˆ—å¹…å„ªå…ˆæŽ¢ç´¢

mapã§ã¯ã‚ãƒ¼ã‚’ç¾åœ¨ã®idã€valueã‚’ç¾åœ¨ã®ã‚°ãƒ©ãƒ•ã¨ã—ã¦å—ã‘å–ã‚Šã€ã„ã‘ã‚‹å…ˆã¨ã‚°ãƒ©ãƒ•ãã®ã‚‚ã®ã‚’å‡ºåŠ›ã€‚
redeuceã§ã¯ã‚°ãƒ©ãƒ•ãƒ‡ãƒ¼ã‚¿ã¨ãã“ã¾ã§ã®è·é›¢ã‚’å—ã‘å–ã‚Šã€æ–°ãŸãªè·é›¢ãƒ‡ãƒ¼ã‚¿ã‚’ä½œã‚Šã ã™ã€‚
è¾ºã®ã‚³ã‚¹ãƒˆãŒ1ã«å›ºå®šã•ã‚Œã¦ã„ã‚‹å ´åˆã¯ã€ã‚³ã‚¹ãƒˆãŒâˆžã®ãƒŽãƒ¼ãƒ‰ãŒãªããªã£ãŸæ™‚ç‚¹ã§çµ‚äº†ã™ã‚Œã°ã‚ˆã„ã€‚
ãã‚Œã¾ã§map reduceã‚’ç¹°ã‚Šè¿”ã™ã“ã¨ã«ãªã‚Šã€çµ‚äº†åˆ¤å®šã¯hadoopAPIã«å˜åœ¨ã™ã‚‹ã‚«ã‚¦ãƒ³ãƒˆã‚’ä½¿ç”¨ã™ã‚Œã°å¯èƒ½(ãƒŽãƒ¼ãƒ‰ã®ã‚³ã‚¹ãƒˆãŒæ›´æ–°ã•ã‚ŒãŸã‚‰ã‚¤ãƒ³ã‚¯ãƒªãƒ¡ãƒ³ãƒˆ)ã€‚

è¾ºã®ã‚³ã‚¹ãƒˆãŒ1ã«å›ºå®šã•ã‚Œã¦ã„ãªã„å ´åˆã¯ã€æœ€æ‚ªã§|ãƒŽãƒ¼ãƒ‰æ•°-1|ã®ç¹°ã‚Šè¿”ã—ãŒå¿…è¦ã¨ãªã‚‹ã€‚
çµ‚äº†åˆ¤å®šã¯ã€ãƒŽãƒ¼ãƒ‰ã®æœ€çŸã‚³ã‚¹ãƒˆãŒæ›´æ–°ã•ã‚Œãªããªã£ãŸã‚‰çµ‚äº†ã™ã‚Œã°ã‚ˆã„ã€‚ã“ã‚Œã‚‚ã‚«ã‚¦ãƒ³ãƒˆã‚’ç”¨ã„ã‚Œã°å¯èƒ½ã€‚

ã“ã‚Œã¯ãƒ€ã‚¤ã‚¯ã‚¹ãƒˆãƒ©æ³•ã‚’ä¸€å°ã§è¡Œã£ãŸæ™‚ã¨æ¯”ã¹ã€ã¯ã‚‹ã‹ã«åŠ¹çŽ‡ãŒæ‚ªã„ãŒï¼ˆãŠãã‚‰ãé–‰è·¯ãŸãã•ã‚“ã‚ã‚‹ã¨æœ€æ‚ªï¼‰
ãã‚Œã¯ä¸¦åˆ—åŒ–ã®ãŸã‚ã®ã‚³ã‚¹ãƒˆã¨ã¿ãªã™ã€‚

ä¸¦åˆ—å¹…å„ªå…ˆæ¤œç´¢ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ã€map reduceã§ã®å¤šæ•°ã®ä¸€é€£ã®ã‚°ãƒ©ãƒ•ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®åŽŸåž‹ã¨ãªã‚‹æ§‹é€ ã‚’ç¤ºã—ã¦ã„ã‚‹ã€‚ãã‚Œã‚‰ã®ã‚°ãƒ©ãƒ•ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ä»¥ä¸‹ã®ã‚ˆã†ãªç‰¹å¾´ã‚’å…±é€šã—ã¦æŒã¤ã€‚

mapå‡¦ç†ã¯ãƒŽãƒ¼ãƒ‰ã®ãƒ‡ãƒ¼ã‚¿æ§‹é€ ã«å¤§ã—ã¦è¡Œã‚ã‚Œã€reduceå‡¦ç†ã§ã¯åŒã˜è¡Œãå…ˆã®ãƒ‡ãƒ¼ã‚¿ã‚’å—ã‘å–ã‚Šã€ãã‚Œã«å¯¾ã™ã‚‹å‡¦ç†ã‚’ã™ã‚‹ã€‚

PageRank

Webãƒšãƒ¼ã‚¸ã®å“è³ªã‚’æ¸¬å®šã™ã‚‹ãŸã‚ã«Googleã®æ¤œç´¢ã‚¨ãƒ³ã‚¸ãƒ³ã§ç”¨ã„ã‚‰ã‚Œã¦ã‚‹æœ‰åãªæ‰‹æ³•ã€‚
ãƒã‚¤ãƒ‘ãƒ¼ãƒªãƒ³ã‚¯ã®ã‚°ãƒ©ãƒ•æ§‹é€ ã«åŸºã¥ã„ã¦æ¸¬å®šã‚’è¡Œã†ã€‚

å¼•ç”¨å…ƒ:
ã€ŒHadoop MapReduce ãƒ‡ã‚¶ã‚¤ãƒ³ãƒ‘ã‚¿ãƒ¼ãƒ³ã€

2ç« :MapReduceã®åŸºç¤Ž

3ç« :MapReduceã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®è¨­è¨ˆ