ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã¨Hadoop

ã¯ã˜ã‚ã¾ã—ã¦ã€‚ä»Šå¹´ã®5æœˆã«å…¥ç¤¾ã—ãŸå‹é–“@ã•ãŒã™ãƒãƒ¼ãƒ ã§ã™ã€‚

å…¥ç¤¾ã—ã¦ã‹ã‚‰ã¯ã€ãªã‹ãªã‹å¤§å¤‰ãªã“ã¨ã‚‚å¤šã„ã§ã™ãŒã€æœ€è¿‘ã¯ãŠé…’å¥½ããŒé›†ã¾ã£ã¦æœˆæ›œã‹ã‚‰é£²ã¿åˆã† ã€Œå‹é–“ä¼šã€ãªã‚‹ã‚‚ã®ã‚‚ç™ºè¶³ã—ã¦ã€ä»•äº‹é¢ã§ã‚‚ä»•äº‹ä»¥å¤–ã®é¢ã§ã‚‚å¯†åº¦ã®é«˜ã„æ¯Žæ—¥ã‚’éŽã”ã—ã¦ã„ã¾ã™ï¼

ã•ã¦ã€åƒ•ã¯ã€Œã•ãŒã™ã€ãƒãƒ¼ãƒ æ‰€å±žã¨ã„ã†ã“ã¨ã§ã€æ™®æ®µã¯ãƒ¬ã‚·ãƒ”ã‚’ã€Œã•ãŒã™ã€ãƒ¦ãƒ¼ã‚¶ã®æº€è¶³åº¦ã‚’ä¸Šã’ã‚‹ãŸã‚ã«ã€ ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã®æ¤œç´¢ã¾ã‚ã‚Šã«ã¤ã„ã¦ã€ã„ã‚ã„ã‚ãªé–‹ç™ºã‚’è¡Œã£ã¦ã„ã¾ã™ã€‚ ä¸€æ–¹ã§ã€ãƒ¦ãƒ¼ã‚¶ã®ã€Œã•ãŒã™æ¬²æ±‚ã€ã«ã¤ã„ã¦æ·±ãçŸ¥ã‚‹ãŸã‚ã«ã€å¤§è¦æ¨¡ãªãƒ‡ãƒ¼ã‚¿è§£æžã‚’è¡Œã„ã€æ¬²æ±‚ã®åˆ†æžã‚’è¡Œã†æ©Ÿä¼šã‚‚å¢—ãˆã¦ãã¾ã—ãŸã€‚

ã¨ã“ã‚ãŒã€ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã®ãƒã‚°ã¯è†¨å¤§ãªæ•°ãŒã‚ã‚‹ã®ã§ã€ä¸€å£ã®ãƒ‡ãƒ¼ã‚¿è§£æžã¨è¨€ã£ã¦ã‚‚é€šå¸¸ã®ãƒãƒƒãƒå‡¦ç†ã ã¨é–“ã«åˆã‚ãªã„ãŸã‚ã€ åˆ†æ•£å‡¦ç†ç’°å¢ƒã®å¿…è¦æ€§ãŒé«˜ã¾ã£ã¦ãã¾ã—ãŸã€‚ ãã“ã§ã€ã¾ãšã¯æ‰‹è»½ã«è©¦ã›ã‚‹åˆ†æ•£å‡¦ç†ã®çŽ‹é“ã¨ã„ã†ã“ã¨ã§ã€æœ€è¿‘ã§ã¯Hadoopã‚’ä½¿ã£ãŸãƒ‡ãƒ¼ã‚¿è§£æžç’°å¢ƒã‚’æ•´å‚™ã—ã¦ã„ã¾ã™ã€‚

ãã‚“ãªä¸ã€ã¡ã‚‡ã†ã©tech lunchã§ç™ºè¡¨ã®é †ç•ªãŒåƒ•ã«å›žã£ã¦ããŸã®ã§ã€ã„ã„æ©Ÿä¼šãªã®ã§ ã€Œãã‚‚ãã‚‚Hadoopã£ã¦ä½•ï¼Ÿã€ã¨ã„ã†ã“ã¨ã‚„ã€ŒMap & Reduceã‚’è¡Œã£ã¦ã„ã‚‹ã¨ãã€å„ãƒ—ãƒã‚»ã‚¹ã¯ä½•ã‚’ã—ã¦ã„ã‚‹ã®ï¼Ÿã€ãªè©±ã‚’ãƒ‡ãƒ¢ã‚’å«ã‚ãªãŒã‚‰ç™ºè¡¨ã—ã¦ã¿ã¾ã—ãŸã€‚ ä»Šå›žã¯ã€ãã®ã¨ãã®å†…å®¹ã®è³‡æ–™ã¨è³ªç–‘å¿œç”ã®å†…å®¹ã‚’å…±æœ‰ã—ãŸã„ã¨æ€ã„ã¾ã™ã€‚

ç™ºè¡¨è³‡æ–™ã¯ã“ã®ã‚ˆã†ãªã‚‚ã®ã‚’åˆ©ç”¨ã—ã¾ã—ãŸã€‚

[slideshare id=1992982&doc=techlife-2009-09-11-090913193034-phpapp01]

ãã®å¾Œã¯ã€ã“ã®ã‚ˆã†ãªè³ªç–‘å¿œç”ãŒè¡Œã‚ã‚Œã¾ã—ãŸã€‚

HDFSã®NameNodeãŒãƒœãƒˆãƒ«ãƒãƒƒã‚¯ã«ã¯ãªã‚Šãˆãªã„ã®ã‹ï¼Ÿ

NameNodeã¯éšœå®³ãŒèµ·ã“ã‚‹ã¨ã€HDFSã®ã‚¯ãƒ©ã‚¹ã‚¿å…¨ä½“ãŒåˆ©ç”¨ä¸èƒ½ã«ãªã‚‹ã®ã§ã€SPOFã¨ã„ã†è¦³ç‚¹ã§è€ƒãˆã‚‹ã¨ã€æ§‹æˆä¸Šã©ã†ã—ã¦ã‚‚ãƒœãƒˆãƒ«ãƒãƒƒã‚¯ã«ãªã‚Šå¾—ã¾ã™ã€‚ ãŸã ã—ã€NameNodeãŒæ‰±ã†ãƒ¡ã‚¿ãƒ‡ãƒ¼ã‚¿ã‚’ä¿è·ã§ãã‚Œã°ã€NameNodeã«éšœå®³ãŒèµ·ãã¦ã‚‚å¾©æ—§ã§ãã‚‹ãŸã‚ã€æ¬¡ã®ã‚ˆã†ãªæ–¹æ³•ãŒæå”±ã•ã‚Œã¦ã„ã¾ã™ã€‚

ãƒ¡ã‚¿ãƒ‡ãƒ¼ã‚¿ã«ã¤ã„ã¦ã¯ã€RAIDã‚’çµ„ã‚“ã§å¤šé‡ã«ãƒ‡ã‚£ã‚¹ã‚¯ã«æ›¸ãè¾¼ã‚€ã€‚
ã¾ãŸã¯ã€NFSãƒžã‚¦ãƒ³ãƒˆã•ã‚ŒãŸé ˜åŸŸã«ãƒ¡ã‚¿ãƒ‡ãƒ¼ã‚¿ã‚’æ›¸ãè¾¼ã‚€ã€‚
SecondaryNameNodeã¯NameNodeã®ãƒ¡ã‚¿ãƒ‡ãƒ¼ã‚¿ã®ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—ã‚’å®šæœŸçš„ã«ã¨ã£ã¦ã„ã‚‹ãŸã‚ã€NameNodeã¨SecondaryNameNodeã‚’ç‰©ç†çš„ã«åˆ¥ãƒŽãƒ¼ãƒ‰ã«åˆ†ã‘ã¦é‹ç”¨ã™ã‚‹ã€‚

ã¾ãŸã€Nagiosã‚„Gangliaã§ãƒ¢ãƒ‹ã‚¿ãƒªãƒ³ã‚°ã‚’è¡Œã†ã“ã¨ã‚‚å¯èƒ½ã§ã€ã“ã“ã‹ã‚‰éšœå®³ã‚’æ¤œçŸ¥ã™ã‚‹ã“ã¨ã‚‚å¯èƒ½ã§ã™ã€‚

Hadoop MapReduceã®å‡¦ç†ã‚³ãƒ¼ãƒ‰ã¯masterã«ã ã‘ç½®ã„ã¦ãŠã‘ã°é…å¸ƒã•ã‚Œã‚‹ã®ã‹ï¼Ÿ

å‡¦ç†ã‚³ãƒ¼ãƒ‰ã¯Map&Reduceå®Ÿè¡Œæ™‚ã«masterã‹ã‚‰slaveã«é…å¸ƒã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ã‚ã‚‰ã‹ã˜ã‚rsyncãªã©ã§é…å¸ƒã—ã¦ãŠãæ–¹æ³•ã‚‚å–ã‚‹ã“ã¨ãŒå‡ºæ¥ã¾ã™ã€‚

HDFSã®å®‰å®šæ€§ã¯ï¼Ÿ

ãƒ¬ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®æ•°ã‚’å¢—ã‚„ã™ã“ã¨ã§å®‰å®šç¨¼åƒã•ã‚Œã¾ã™ã€‚ ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—å¤±æ•—ã‚’æƒ³å®šã—ã¦ã€ãƒ¬ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³æ•°ã¯3ä»¥ä¸ŠãŒæŽ¨å¥¨ã•ã‚Œã¦ã„ã¾ã™ã€‚ã¾ãŸã€HDFSã«å¯¾ã—ã¦ãƒ•ã‚¡ã‚¤ãƒ«ã‚·ã‚¹ãƒ†ãƒ ãƒã‚§ãƒƒã‚¯ã‚’è¡Œã†ã“ã¨ã‚‚å¯èƒ½ã§ã™ã€‚

Hadoop MapReduceã¨HDFSã‚’åˆ†ã‘ãŸæ–¹ãŒãƒªã‚½ãƒ¼ã‚¹ã‚’åŠ¹çŽ‡çš„ã«ä½¿ãˆã‚‹ã®ã§ã¯ï¼Ÿ

ãã†ã„ã†ç™ºæƒ³ã‚‚ã‚ã‚Šã‹ã¨æ€ã„ã¾ã™ãŒã€Hadoopé–‹ç™ºé™£ã®æ–¹é‡ã¨ã—ã¦ã€åŸºæœ¬çš„ã«ã¯æ¨™æº–çš„ãªè¨å®šã®ä½¿ç”¨ã‚’æŽ¨å¥¨ã—ã¦ã„ã‚‹ã‚ˆã†ã§ã™ã€‚ æ¨™æº–çš„ãªè¨å®šã¯ã€Yahooã‚„Facebookãªã©å¤§è¦æ¨¡ã«åˆ©ç”¨ã•ã‚Œã¦ã„ã‚‹ã‚±ãƒ¼ã‚¹ã‚’ãƒ™ãƒ¼ã‚¹ã«ã—ã¦è¨å®šã•ã‚ŒãŸã‚‚ã®ãªã®ã§ã€ã“ã‚Œã«ç¿’ã†ã®ãŒçµæžœçš„ã«ä¸€ç•ªå®‰å®šã—ã¦å‹•ä½œã™ã‚‹ã®ã§ã—ã‚‡ã†ã€‚

Taskã‚’å‰²ã‚ŠæŒ¯ã‚‹ã®ã«å„ªå…ˆåº¦ãŒä»˜ã‘ã‚‰ã‚Œã‚‹ã®ã‹ï¼Ÿ

è¤‡æ•°Jobã‚’ä¸Žãˆã‚‹ã¨ãã«ã€å„ªå…ˆåº¦ã‚’ä»˜ã‘ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

UUæ¸¬å®šã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã§ã€è¤‡æ•°ãƒ—ãƒã‚»ã‚¹å˜åœ¨ã™ã‚‹ã¯ãšã®ReduceãŒãƒãƒƒã‚·ãƒ¥ãƒžãƒƒãƒ—ã®ã‚ˆã†ãªã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’ã©ã†ã—ã¦æŒã¦ã‚‹ã®ï¼Ÿ

ãƒãƒƒã‚·ãƒ¥ãƒžãƒƒãƒ—ã®ã‚ˆã†ãªã‚ãƒ¼ã”ã¨ã«å‡¦ç†ã‚’è¡Œã†ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’æŒã¤ãŸã‚ã«ã¯ã€Reducerã¯ã‚ãƒ¼ã”ã¨ã«åŒã˜ãƒŽãƒ¼ãƒ‰ãŒå‡¦ç†ã‚’è¡Œã£ã¦ã„ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ã“ã®ã¨ãã€Mapã®å‡ºåŠ›ã‚’åŒã˜ã‚ãƒ¼ã”ã¨ã«åŒã˜ã‚°ãƒ«ãƒ¼ãƒ—ã«å±žã™ã‚‹ã‚ˆã†ã«åˆ†å‰²ã§ãã‚Œã°ã€Reduceã¯åˆ†å‰²å¯èƒ½ã¨ãªã‚Šã¾ã™ã€‚

ã“ã“ã§ã®ã€ã€ŒMapã®å‡ºåŠ›ã‚’ã€ã‚½ãƒ¼ãƒˆã—ã€Reduceã«æ¸¡ã™ã€ãƒ•ã‚§ãƒ¼ã‚ºã¯ã€ŒShuffleã€ã€ã€ŒReduceã¸ã®å…¥åŠ›ã‚’ã‚ãƒ¼ã«åŸºã¥ã„ã¦ã‚°ãƒ«ãƒ¼ãƒ—åŒ–ã—ã¦ã¾ã¨ã‚ã‚‹ã€ãƒ•ã‚§ãƒ¼ã‚ºã‚’ã€ŒSortã€ãƒ•ã‚§ãƒ¼ã‚ºã¨å‘¼ã³ã¾ã™ã€‚ Hadoopã§ã¯Shuffleã‚„Sortã¯å®Œå…¨ã«éš è”½ã•ã‚Œã¦ã„ã‚‹ã®ã§é–‹ç™ºè€…ãŒã“ã‚Œã‚‰ã®ã‚³ãƒ¼ãƒ‰ã‚’æ›¸ãã‚±ãƒ¼ã‚¹ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚

ã¤ã¾ã‚Šã€ä»Šå›žã®ã‚ˆã†ãªMapã®å‡ºåŠ›ãŒkeyã”ã¨ã«åˆ†å‰²ã•ã‚Œã¦ã„ã‚‹å ´åˆã¯ã€Shuffle, Sortã«ã‚ˆã£ã¦Mapã®å‡ºåŠ›ã‚’åˆ†å‰²ã€ã‚°ãƒ«ãƒ¼ãƒ—åŒ–ã—ã¦ReduceãŒå‡¦ç†ã§ãã‚‹ã‚ˆã†ã«ãªã‚‹ã®ã§ã†ã¾ãæ‰±ã†ã“ã¨ãŒã§ãã¾ã™ã€‚

HDFSã‹ã‚‰ã®ãƒ¬ã‚¹ãƒãƒ³ã‚¹ã¯ç‰¹ã«é€Ÿã„ã‚ã‘ã§ã¯ãªãã€è»¢é€é€Ÿåº¦ãŒãƒœãƒˆãƒ«ãƒãƒƒã‚¯ã«ãªã‚‹ã®ã§ã€ç”»åƒã‚µãƒ¼ãƒã«ã¯å‘ã„ã¦ã„ã¾ã›ã‚“ã€‚HDFSã¯ã€ãƒ‡ãƒ¼ã‚¿ã®è¡Œãæ¥ãŒãã‚Œã»ã©èµ·ã“ã‚‰ãªã„ã€ãƒã‚°ãƒ‡ãƒ¼ã‚¿ã®ã‚ˆã†ãªã‚‚ã®ã®ä¿å˜ãŒæœ€ã‚‚é©ã—ã¦ã„ã‚‹ã¨æ€ã„ã¾ã™ã€‚ ç”»åƒã‚µãƒ¼ãƒã‚’åˆ†æ•£ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã§æ¤œè¨Žã™ã‚‹å ´åˆã¯ã€ä»–ã®ãƒ—ãƒãƒ€ã‚¯ãƒˆã‚’åˆ©ç”¨ã—ãŸã»ã†ãŒã‚ˆã•ãã†ã§ã™ã€‚

Hadoopã¯HDFSã«ç‰¹åŒ–ã—ã¦ã‚‹ã®ã‹ï¼Ÿ

Hadoopã‚’åˆ©ç”¨ã™ã‚‹å ´åˆã¯ã€å¿…ãšã—ã‚‚HDFSã—ã‹ä½¿ãˆãªã„ã‚ã‘ã§ã¯ãªã„ã§ã™ã€‚ä»–ã«ã‚‚Amazon S3, CloudStoreãªã‚“ã‹ã®é¸æŠžè‚¢ãŒã‚ã‚Šã¾ã™ã€‚å®Ÿéš›ã¯ã€HDFSãŒä¸€ç•ªãƒãƒ”ãƒ¥ãƒ©ãƒ¼ã§æ¨™æº–çš„ã«åˆ©ç”¨ã•ã‚Œã¦ã„ã‚‹ã®ã§ã€ä»Šå›žã¯ã“ã‚Œã‚’è©¦ã—ã¦ã¿ã¾ã—ãŸã€‚

HiveãŸã®ã—ãã†ã§ã™ã

è©¦ã—ã¦ã¿ã¾ã—ãŸãŒã€ãªã‹ãªã‹ãŸã®ã—ã„ã§ã™ã€‚ RDBã¨è¦ªå’Œæ€§é«˜ãã€Joinãªã‚“ã‹ã‚‚ã§ãã‚‹ã®ã¯é…åŠ›çš„ãªã®ã§ã€å°Žå…¥ã‚’æ¤œè¨Žã—ã¦ã„ã¾ã™ã€‚

ã¾ã¨ã‚

ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã«ãŠã„ã¦ãƒ‡ãƒ¼ã‚¿è§£æžã®éœ€è¦ãŒé«˜ã¾ã£ã¦ããŸã“ã¨ã§ã€Hadoopã¸ã®å–ã‚Šçµ„ã¿ã‚’ã¾ã¨ã‚ã¦ã¿ã¾ã—ãŸã€‚ä»Šå¾Œã€æœ¬æ ¼å°Žå…¥ã—ã¦ã„ãéš›ã«ã¯ã¾ãŸæ”¹ã‚ã¦ã‚¨ãƒ³ãƒˆãƒªã‚’ä¸Šã’ãŸã„ã¨æ€ã„ã¾ã™ã€‚

ã¾ãŸã€ã“ã®ã‚ˆã†ãªåˆ†æ•£ç’°å¢ƒã«ãŠã‘ã‚‹ãƒ‡ãƒ¼ã‚¿è§£æžã«ã¤ã„ã¦ã”èˆˆå‘³ã‚ã‚‹æ–¹ã‚’ã€ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰ã§ã¯å‹Ÿé›†ã—ã¦ã„ã¾ã™ï¼

ã‚¯ãƒƒã‚¯ãƒ‘ãƒƒãƒ‰é–‹ç™ºè€…ãƒ–ãƒã‚°

HDFSã®NameNodeãŒãƒœãƒˆãƒ«ãƒãƒƒã‚¯ã«ã¯ãªã‚Šãˆãªã„ã®ã‹ï¼Ÿ