Hadoop DistCpå®Ÿè·µã‚¬ã‚¤ãƒ‰2020å¹´ç‰ˆ - ç§‘å¦ã¨éžç§‘å¦ã®è¿·å®®

Hadoop DistCp (distributed copy, ã§ãƒã™ã¨ã—ãƒ¼ã´ãƒ¼ã€ã§ãƒã™ã¨ã“ã´ãƒ¼) ã¯ã€MapReduceã‚’ç”¨ã„ã¦Hadoop ã‚¯ãƒ©ã‚¹ã‚¿é–“ã§ãƒ‡ãƒ¼ã‚¿ã‚³ãƒ”ãƒ¼ã™ã‚‹ãŸã‚ã®ãƒ„ãƒ¼ãƒ«ã§ã™ã€‚ä¿å®ˆé‹ç”¨ã—ã¦ã„ã‚‹å ´åˆã‚’é™¤ãã€ãŠãã‚‰ã2020å¹´ã«ãŠã„ã¦ã‚‚é‹ç”¨ä¸Šã®é¸æŠžè‚¢ã¨ã—ã¦æ®‹ã£ã¦ã„ã‚‹æœ€å¾Œã®MapReduceã®ãƒ„ãƒ¼ãƒ«ã§ã™ã€‚ã“ã®è¨˜äº‹ã§ã¯ã€DistCpã®ç´¹ä»‹ã¨å®Ÿè·µçš„ãªä½¿ã„æ–¹ã®åŸºæœ¬ã«ã¤ã„ã¦èª¬æ˜Žã—ã¦ã„ãã¾ã™ã€‚å†…å®¹ã¨ã—ã¦ã¯ä»¥ä¸‹ã®é€šã‚Šã§ã™ã€‚

Distcpã®æ¦‚è¦ã¨åŽŸç†
å®Ÿè·µDistCp
- DistCpã«ãƒ‰ãƒ©ã‚¤ãƒ©ãƒ³ã¯ãªã„
- ã‚³ãƒ”ãƒ¼ã¨ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã®æŒ™å‹•ã®é•ã„ã‚’æŠ¼ã•ãˆã‚‹
- ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã‚’å–å¾—ã™ã‚‹
- ã‚½ãƒ¼ã‚¹ã¨å®›å…ˆã€ã©ã¡ã‚‰ã®ã‚¯ãƒ©ã‚¹ã‚¿ã§DistCpã‚’å®Ÿè¡Œã™ã‚‹ã‹
- ç•°ãªã‚‹ãƒ¡ã‚¸ãƒ£ãƒ¼ãƒãƒ¼ã‚¸ãƒ§ãƒ³é–“ã§ã®ãƒ‡ãƒ¼ã‚¿è»¢é€ã«webhdfsã‚’ä½¿ã†
- -p ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã®æŒ™å‹•
- 2ã¤ã®ã‚³ãƒ”ãƒ¼æˆ¦ç•¥: uniformizeã¨dynamic
- mapæ•°ã®èª¿æ•´
- è»¢é€å¸¯åŸŸ

ãªã‚“ã§ä»Šæ›´DistCpï¼Ÿ

DistCpã®ä½¿ã„æ–¹ã«ã¤ã„ã¦ãã¡ã‚“ã¨æ›¸ã„ã¦ã„ã‚‹ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆãŒãªã‹ã£ãŸã®ã§æ›¸ãã¾ã—ãŸã€‚Hadoopã®ãƒã‚¤ãƒ–ãƒ«ã§ã‚ã‚‹è±¡æœ¬ã•ãˆã€DistCpã«ã¤ã„ã¦ã¯æœ¬å½“ã«ç°¡å˜ãªã“ã¨ã—ã‹æ›¸ã„ã¦ãŠã‚‰ãšã€å®Ÿéš›ã®ä½¿ã„æ–¹ã«ã¤ã„ã¦ã¾ã¨ã‚ã¦ã„ã‚‹ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆãŒã‚ã‚Šã¾ã›ã‚“ã§ã—ãŸã€‚Clouderaã®ã‚ˆã†ãªãƒ™ãƒ³ãƒ€ãƒ¼ã®å ´åˆã¯ Cloudera Manager という素晴らしいツールが持つデータレプリケーション機能ã«åŒ…å«ã•ã‚Œã¦ã„ã¦ã€ãƒ¦ãƒ¼ã‚¶ãƒ¼ã¯ãƒœã‚¿ãƒ³ä¸€ç™ºã§ã‚¯ãƒ©ã‚¹ã‚¿é–“ãƒ‡ãƒ¼ã‚¿è»¢é€ãŒã§ãã‚‹ãŸã‚ã€DistCpã«ã¤ã„ã¦ç´°ã‹ã„è©±ã‚’çŸ¥ã‚‹å¿…è¦ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚ãã“ã§ã€ç´ ã®Hadoopã‚’ä½¿ã†äººã®ãŸã‚ã®DistCpã®è¨˜äº‹ã‚’æ›¸ã„ã¦ãŠãã“ã¨ã«ã—ã¾ã—ãŸã€‚

DistCpã«ã¤ã„ã¦ã®æ©Ÿèƒ½ä¸€è¦§ãªã©ã®è©³ç´°ã«ã¤ã„ã¦ã¯å…¬å¼ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’å‚ç…§ã—ã¦ãã ã•ã„ã€‚

Hadoop ç¬¬3ç‰ˆ

ä½œè€…:Tom White
ç™ºå£²æ—¥: 2013/07/26
ãƒ¡ãƒ‡ã‚£ã‚¢: å¤§åž‹æœ¬

hadoop.apache.org

DistCpã®æ¦‚è¦

DistCp ã¯ã€MapReduceã‚’ç”¨ã„ã¦Hadoop ã‚¯ãƒ©ã‚¹ã‚¿é–“ã§é«˜é€Ÿã«ãƒ‡ãƒ¼ã‚¿ã‚³ãƒ”ãƒ¼ã™ã‚‹ãŸã‚ã®ãƒ„ãƒ¼ãƒ«ã§ã€Apache Hadoop ã®æ¨™æº–ãƒªãƒªãƒ¼ã‚¹ã«å«ã¾ã‚Œã¦ã„ã¾ã™ã€‚Apache Hadoopã¯ã€åˆ†æ•£ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã®HDFS(Hadoop Distributed File Systemã€Hadoop åˆ†æ•£ãƒ•ã‚¡ã‚¤ãƒ«ã‚·ã‚¹ãƒ†ãƒ )ã¨ã€åˆ†æ•£ã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ãƒ†ã‚£ãƒ³ã‚°ãƒ•ãƒ¬ãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã®YARNã‹ã‚‰æ§‹æˆã•ã‚Œã¦ã„ã‚‹åˆ†æ•£å‡¦ç†ãƒ•ãƒ¬ãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã§ã€MapReduceã¯YARNä¸Šã§å‹•ãä»£è¡¨çš„ãªã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®ä¸€ã¤ã§ã™ã€‚ Hadoop ã‚¯ãƒ©ã‚¹ã‚¿é–“ã¨æ›¸ãã¾ã—ãŸãŒã€æ£ç¢ºã«ã¯åˆ†æ•£ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸é–“ã¨è¨€ã£ãŸæ–¹ãŒæ£ã—ã„ã§ã—ã‚‡ã†ã€‚DistCpã¯ã€HDFSã ã‘ã§ãªãã€Amazon S3 ã‚„Azure Storage ã¨ã„ã£ãŸã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã«ã‚‚å¯¾å¿œã—ã¦ã„ã¾ã™ã€‚

DistCpã¯ã‚³ãƒžãƒ³ãƒ‰ãƒ©ã‚¤ãƒ³ãƒ„ãƒ¼ãƒ«ã§ã€ä»¥ä¸‹ã®ã‚ˆã†ãªå½¢å¼ã§å®Ÿè¡Œã—ã¾ã™ã€‚

$ hadoop distcp hdfs://cluster1/foo/bar hdfs://cluster2/foo

ã“ã‚Œã¯ã€cluster1ã¨ã„ã†HDFS ã‚¯ãƒ©ã‚¹ã‚¿ã®ã€ /foo/bar ã¨ã„ã†ãƒ‘ã‚¹ã‚’ã€cluster2 ã¨ã„ã†HDFS ã‚¯ãƒ©ã‚¹ã‚¿ã®ã€ /foo ã¨ã„ã†ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã«ã‚³ãƒ”ãƒ¼ã™ã‚‹ã€ã¨ã„ã†ã‚³ãƒžãƒ³ãƒ‰ã¨ãªã‚Šã¾ã™ã€‚

DistCpã®åŽŸç†

DistCpã¯ã€MapReduce ãƒ•ãƒ¬ãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã§å‹•ä½œã—ã¾ã™ã€‚ã¾ãšã€MapReduceã«ã¤ã„ã¦ç°¡å˜ã«ãŠã•ã‚‰ã„ã—ã¾ã™ã€‚MapReduceã¯ã€è¤‡æ•°ã®ãƒŽãƒ¼ãƒ‰ã§åˆ¥å€‹ã«è¨ˆç®—å‡¦ç†ã‚’è¡Œã†Mapã€ç‰¹å®šã®ã‚ãƒ¼ã”ã¨ã«ãƒ‡ãƒ¼ã‚¿ã‚’è»¢é€ã—ã¦é›†ç´„ã™ã‚‹Shuffleã€é›†ç´„ã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã€Mapã¨åŒæ§˜ã€ãƒŽãƒ¼ãƒ‰ã”ã¨ã«ç‹¬ç«‹ã—ã¦å‡¦ç†ã‚’è¡Œã†Reduceã¨ã„ã†3ã¤ã®ãƒ•ã‚§ãƒ¼ã‚ºã§åˆ†æ•£å‡¦ç†ã‚’è¡Œã†ãƒ•ãƒ¬ãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã§ã™ã€‚
ä»¥ä¸‹ã®å›³ã¯ã€MapReduceã®å‡¦ç†ã®æµã‚Œã‚’è¡¨ã—ã¦ã„ã¾ã™ã€‚

f:id:shiumachi:20200719122107p:plain

DistCpã¯ã€Mapå‡¦ç†ã®ã¿ã‚’ä½¿ã„ã€ä½•ã‚‚è¨ˆç®—ã›ãš(æ’ç‰é–¢æ•°)ã€å…¥åŠ›ã¨å‡ºåŠ›ã‚’åˆ¥ã®ã‚¯ãƒ©ã‚¹ã‚¿ã§è¡Œã†ã¨ã„ã†å½¢ã§MapReduceã‚’ä½¿ç”¨ã—ã¦ã„ã¾ã™ã€‚

ä»¥ä¸‹ã®å›³ã¯ã€DistCpã®å‡¦ç†ã®æµã‚Œã‚’è¡¨ã—ã¦ã„ã¾ã™ã€‚

f:id:shiumachi:20200719122509p:plain

DistCpã®ã‚½ãƒ¼ã‚¹(èªã¿è¾¼ã¿å…ƒ)ã¨å®›å…ˆ(æ›¸ãè¾¼ã¿å…ˆ)ã¯URIã§è¡¨ã•ã‚Œã¾ã™ã€‚å…ˆç¨‹ã®ä¾‹ã§ã¯ã€å®›å…ˆã‚’ hdfs://cluster2/foo ã¨ã—ã¾ã—ãŸãŒã€ã“ã®å®›å…ˆã¯ s3a://bucket1/foo ã§ã‚‚å•é¡Œãªãå‹•ä½œã—ã¾ã™ã€‚ã“ã‚Œã¯ã€S3ä¸Šã® bucket1 ã¨ã„ã†ãƒã‚±ãƒƒãƒˆã®é…ä¸‹ã«ã‚ã‚‹ foo ã¨ã„ã†åå‰ç©ºé–“ã«ãƒ‡ãƒ¼ã‚¿ã‚’ã‚³ãƒ”ãƒ¼ã™ã‚‹ã“ã¨ã‚’æ„å‘³ã—ã¾ã™ã€‚

å®Ÿè·µDistCp: ãƒ‰ãƒ©ã‚¤ãƒ©ãƒ³ã¯ãªã„

DistCpã¯ã€éžå¸¸ã«å¤§è¦æ¨¡ã‹ã¤ä¸å¯é€†å¤‰æ›´ã‚’è¡Œã†ãƒ„ãƒ¼ãƒ«ã§ã‚ã‚‹ã«ã‚‚é–¢ã‚ã‚‰ãšã€ãƒ‰ãƒ©ã‚¤ãƒ©ãƒ³ã«ç›¸å½“ã™ã‚‹æ©Ÿèƒ½ãŒå˜åœ¨ã—ãªã„ã¨ã„ã†ç‚¹ã«æ³¨æ„ã—ã¦ãã ã•ã„ã€‚ãƒ‰ãƒ©ã‚¤ãƒ©ãƒ³ãŒãªã„ã¨ã„ã†ã“ã¨ã¯ã€ååˆ†ã«æ¤œè¨¼ã‚¯ãƒ©ã‚¹ã‚¿ã§ãƒ†ã‚¹ãƒˆã—ãŸå¾Œã€æœ¬ç•ªã§ã®å®Ÿè¡ŒãŒæˆåŠŸã™ã‚‹ã“ã¨ã‚’ã€ç¥ž(ã‚ã‚‹ã„ã¯ã‚ãªãŸãŒä¿¡ä»°ã™ã‚‹ä½•ã‹)ã«ç¥ˆã‚‹ã—ã‹ãªããªã‚Šã¾ã™ã€‚ãã—ã¦å¤§æŠµã®å ´åˆãã®ç¥ˆã‚ŠãŒå±Šãã“ã¨ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚é ‘å¼µã‚Šã¾ã—ã‚‡ã†ã€‚

ãƒ‰ãƒ©ã‚¤ãƒ©ãƒ³ã«ã¤ã„ã¦ã¯6å¹´é–“ã‚ªãƒ¼ãƒ—ãƒ³ã—ã¦ã„ã‚‹JIRAãŒã‚ã‚Šã¾ã™ã®ã§ã€æˆ‘ã“ãã¯ã¨ã„ã†æ–¹ã¯å®Ÿè£…ãŠå¾…ã¡ã—ã¦ã„ã¾ã™ã€‚

issues.apache.org

å®Ÿè·µDistCp: ã‚³ãƒ”ãƒ¼ã¨ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã®æŒ™å‹•ã®é•ã„ã‚’æŠ¼ã•ãˆã‚‹

hadoop distcp ã‚³ãƒžãƒ³ãƒ‰ã¯ã€ä½•ã‚‚ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ã¤ã‘ãªã„å ´åˆã¯ã€ã‚³ãƒ”ãƒ¼ã¨ã„ã†æŒ™å‹•ã«ãªã‚Šã¾ã™ã€‚ã“ã‚Œã¯ã€ä»¥ä¸‹ã®æ“ä½œã‚’è¡Œã„ã¾ã™ã€‚

ã‚½ãƒ¼ã‚¹ã«ãƒ‘ã‚¹ãŒå˜åœ¨ã—ã€å®›å…ˆã«å˜åœ¨ã—ãªã„å ´åˆã¯ã‚³ãƒ”ãƒ¼ã™ã‚‹
ã‚½ãƒ¼ã‚¹ã¨å®›å…ˆã«åŒã˜ãƒ‘ã‚¹ãŒå˜åœ¨ã™ã‚‹å ´åˆã¯ä½•ã‚‚ã—ãªã„
ã‚½ãƒ¼ã‚¹ã«ãƒ‘ã‚¹ãŒå˜åœ¨ã›ãšã€å®›å…ˆã«å˜åœ¨ã™ã‚‹å ´åˆã¯ä½•ã‚‚ã—ãªã„

hadoop distcp -update ã§ã¯ã€ä»¥ä¸‹ã®ã‚ˆã†ã«æŒ™å‹•ãŒå¤‰ã‚ã‚Šã¾ã™ã€‚

ã‚½ãƒ¼ã‚¹ã«ãƒ‘ã‚¹ãŒå˜åœ¨ã—ã€å®›å…ˆã«å˜åœ¨ã—ãªã„å ´åˆã¯ã‚³ãƒ”ãƒ¼ã™ã‚‹
ã‚½ãƒ¼ã‚¹ã¨å®›å…ˆã«åŒã˜ãƒ‘ã‚¹ãŒå˜åœ¨ã™ã‚‹å ´åˆã€ãƒã‚§ãƒƒã‚¯ã‚µãƒ ãªã©ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã®ä¸èº«ã‚’ç¢ºèªã—ã€ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒç•°ãªã‚‹å ´åˆã¯ã‚³ãƒ”ãƒ¼ã™ã‚‹ã€‚ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒåŒä¸€ã®å ´åˆã¯ä½•ã‚‚ã—ãªã„
ã‚½ãƒ¼ã‚¹ã«ãƒ‘ã‚¹ãŒå˜åœ¨ã›ãšã€å®›å…ˆã«å˜åœ¨ã™ã‚‹å ´åˆã¯ä½•ã‚‚ã—ãªã„

hadoop distcp -update -delete ã§ã¯ã€ä»¥ä¸‹ã®ã‚ˆã†ã«æŒ™å‹•ãŒå¤‰ã‚ã‚Šã¾ã™ã€‚

ã‚½ãƒ¼ã‚¹ã«ãƒ‘ã‚¹ãŒå˜åœ¨ã—ã€å®›å…ˆã«å˜åœ¨ã—ãªã„å ´åˆã¯ã‚³ãƒ”ãƒ¼ã™ã‚‹
ã‚½ãƒ¼ã‚¹ã¨å®›å…ˆã«åŒã˜ãƒ‘ã‚¹ãŒå˜åœ¨ã™ã‚‹å ´åˆã€ãƒã‚§ãƒƒã‚¯ã‚µãƒ ãªã©ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã®ä¸èº«ã‚’ç¢ºèªã—ã€ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒç•°ãªã‚‹å ´åˆã¯ã‚³ãƒ”ãƒ¼ã™ã‚‹ã€‚ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒåŒä¸€ã®å ´åˆã¯ä½•ã‚‚ã—ãªã„
ã‚½ãƒ¼ã‚¹ã«ãƒ‘ã‚¹ãŒå˜åœ¨ã›ãšã€å®›å…ˆã«å˜åœ¨ã™ã‚‹å ´åˆã¯ãã®ãƒ‘ã‚¹ã‚’å‰Šé™¤ã™ã‚‹

ã“ã‚Œã‚‰ã®æŒ™å‹•ã‚’ã¾ã¨ã‚ã‚‹ã¨ã€ä»¥ä¸‹ã®å›³ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

f:id:shiumachi:20200719122945p:plain

hadoop distcp ã« -update ã‚’ã¤ã‘ã‚‹å ´åˆã€ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã®ä¸èº«ã‚’æ¯”è¼ƒã™ã‚‹ãŸã‚ã€ã‚ªãƒ¼ãƒãƒ¼ãƒ˜ãƒƒãƒ‰ãŒç™ºç”Ÿã—ã¾ã™ã€‚ãã®ãŸã‚ã€-updateãªã—ã«æ¯”ã¹ã¦å‡¦ç†æ€§èƒ½ãŒè½ã¡ã‚‹ã“ã¨ã«æ³¨æ„ã—ã¦ãã ã•ã„ã€‚

DistCpã®ã‚³ãƒ”ãƒ¼ã¨ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã®æŒ™å‹•ã®é•ã„ã¯é–“é•ãˆã‚„ã™ãã€ãã—ã¦ãã®é–“é•ã„ãŒé‡å¤§ãªäº‹æ•…ã‚’èµ·ã“ã—ã¦ã—ã¾ã†å¯èƒ½æ€§ãŒã‚ã‚Šã¾ã™ã®ã§çµ¶å¯¾ã«è¦šãˆã¦ãã ã•ã„ã€‚

ä»¥ä¸‹ã®2ã¤ã®ä¾‹ã‚’è¦‹ã¦ãã ã•ã„ã€‚

# ä¾‹1
$ hadoop distcp hdfs://cluster1/foo/bar hdfs://cluster2/foo
# ä¾‹2: èª¤ã£ãŸæ–¹æ³•
$ hadoop distcp -update hdfs://cluster1/foo/bar hdfs://cluster2/foo

ä¾‹1ã¯ã€cluster2/foo ã®ç›´ä¸‹ã« cluster1/foo/bar ã‚’ã‚³ãƒ”ãƒ¼ã™ã‚‹ã®ã§ã€çµæžœã¨ã—ã¦ cluster2/foo/bar ãŒä½œæˆã•ã‚Œã¾ã™ã€‚
ä¾‹2ã¯ã€ cluster2/foo ã‚’ cluster1/foo/bar ã®å†…å®¹ã§ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã™ã‚‹ã®ã§ã€ cluster2/foo/bar ã¯ä½œæˆã•ã‚Œãšã€cluster2/foo ã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒ cluster1/foo/bar ã¨åŒã˜ã‚‚ã®ã«ãªã‚Šã¾ã™ã€‚

å›³ã«ã™ã‚‹ã¨ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

f:id:shiumachi:20200719123329p:plain

ã“ã®ä¸€ä¾‹ã ã‘ã ã¨ãƒ”ãƒ³ã¨ã“ãªã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã®ã§ã€ã‚‚ã£ã¨å®Ÿå‹™ä¸Šå®Ÿè¡Œã™ã‚‹å¯èƒ½æ€§ã®ã‚ã‚‹ã‚³ãƒžãƒ³ãƒ‰ã§ã¿ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

# ä¾‹3
$ hadoop distcp hdfs://cluster1/user/sato hdfs://cluster2/user
# ä¾‹4: èª¤ã£ãŸæ–¹æ³•
$ hadoop distcp -update -delete hdfs://cluster1/user/sato hdfs://cluster2/user

hadoop distcp ã® -delete ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã¯ -update ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã¨ä¸€ç·’ã«ä½¿ã‚ãªã„ã¨åˆ©ç”¨ã§ããªã„ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§ã€ã‚½ãƒ¼ã‚¹ã‚¯ãƒ©ã‚¹ã‚¿ã«ã¯å˜åœ¨ã—ãªã„ã‘ã©å®›å…ˆã‚¯ãƒ©ã‚¹ã‚¿ã«ã¯å˜åœ¨ã™ã‚‹å…¨ã¦ã®ãƒ‘ã‚¹ã‚’å‰Šé™¤ã—ã¾ã™ã€‚ã¤ã¾ã‚Šã€-delete ã‚’ä»˜ä¸Žã™ã‚‹ã¨ã€ã‚½ãƒ¼ã‚¹ã¨å®›å…ˆã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒå…¨ãåŒä¸€ã®ã‚‚ã®ã¨ãªã‚Šã¾ã™ã€‚
ä¾‹3ã¯ã€ cluster1/user/sato ã‚’ã€ cluster2/user/ ã«ã‚³ãƒ”ãƒ¼ã—ã¾ã™ã€‚ã‚ˆã£ã¦ã€cluster2/user/sato ãŒä½œæˆã•ã‚Œã¾ã™ã€‚
ä¾‹4ã¯ã€ cluster2/user ã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒã€cluster1/user/sato ã¨å…¨ãåŒã˜ã‚‚ã®ã«ãªã‚Šã¾ã™ã€‚ã¤ã¾ã‚Šã€ /user ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªé…ä¸‹ã«å˜åœ¨ã™ã‚‹å…¨ã¦ã®ãƒ¦ãƒ¼ã‚¶ãƒ¼ãƒ‡ãƒ¼ã‚¿ãŒå®Œå…¨ã«å‰Šé™¤ã•ã‚Œã€ãã®ä»£ã‚ã‚Šã«ãƒ¦ãƒ¼ã‚¶ sato ã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã ã‘ãŒç½®ã‹ã‚Œã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

å›³ã«è¡¨ã™ã¨ã€ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

f:id:shiumachi:20200719123553p:plain

ã€Œã‚´ãƒŸç®±æ©Ÿèƒ½ãŒã‚ã‚‹ã‹ã‚‰å³åº§ã«å‰Šé™¤ã•ã‚Œã‚‹ã“ã¨ã¯ãªã„ã®ã§ã¯ï¼Ÿã€ã¨æ€ã†ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ãŒã€DistCpã®ãƒã‚°ã§ã‚´ãƒŸç®±ã¯æ©Ÿèƒ½ã—ã¾ã›ã‚“ã€‚ã“ã®å•é¡Œã¯2020/07/15ç¾åœ¨æœªè§£æ±ºã§ã™ã€‚è©³ç´°ã«ã¤ã„ã¦ã¯ä»¥ä¸‹ã®JIRAã‚‚å‚ç…§ã—ã¦ãã ã•ã„ã€‚

issues.apache.org

é‹ç”¨è€…ã¯ã“ã®ã‚³ãƒžãƒ³ãƒ‰ã‚’èª¤ã£ã¦å®Ÿè¡Œã—ãŸæ™‚ç‚¹ã§ã€å³åº§ã«ç·Šæ€¥äº‹æ…‹ã®ã‚¢ãƒ©ãƒ¼ãƒˆã‚’å‡ºã•ãªã‘ã‚Œã°ã„ã‘ãªããªã‚‹ã§ã—ã‚‡ã†ã€‚

ã“ã®ä¾‹4ã¯ã€æ£ã—ãã¯ä»¥ä¸‹ã®ã‚ˆã†ã«æ›¸ãã¹ãã§ã—ãŸã€‚

# ä¾‹4: èª¤ã£ãŸæ–¹æ³•
$ hadoop distcp -update -delete hdfs://cluster1/user/sato hdfs://cluster2/user
# ä¾‹5: ä¾‹4ã®æ£ã—ã„æ›¸ãæ–¹
$ hadoop distcp -update -delete hdfs://cluster1/user/sato hdfs://cluster2/user/sato

ã§ã¯ã€ã“ã“ã§ã‚‚ã†ä¸€ã¤ã®ä¾‹ã‚’ç´¹ä»‹ã—ã¾ã—ã‚‡ã†ã€‚cluster2ã«æ—¢ã«/userãŒå˜åœ¨ã™ã‚‹ã¨ãã«ã€ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã™ã‚‹ã¨ä½•ãŒèµ·ãã‚‹ã§ã—ã‚‡ã†ã‹ã€‚

# ä¾‹6: èª¤ã£ãŸæ–¹æ³•
$ hadoop distcp hdfs://cluster1/user hdfs://cluster2/user

ã“ã‚ŒãŒã€-update ( -delete ) ãŒã¤ã„ã¦ã„ãŸãªã‚‰ã°ã€å•é¡Œãªã‹ã£ãŸã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ã—ã‹ã—ã€ä»Šå›žã¯ -update ãŒã¤ã„ã¦ã„ã¾ã›ã‚“ã€‚ã‚ˆã£ã¦ã€ cluster1/user ãŒ cluster2/user ã®é…ä¸‹ã«ã‚³ãƒ”ãƒ¼ã•ã‚Œã¾ã™ã€‚ã¤ã¾ã‚Šã€ cluster2/user/user ãŒä½œæˆã•ã‚Œã¾ã™ã€‚ã“ã‚Œã¯ã€å¤šãã®é‹ç”¨è€…ã«ã¨ã£ã¦æ„å›³ã—ãŸæŒ™å‹•ã§ã¯ãªã„ã§ã—ã‚‡ã†ã€‚

ã“ã®ã¨ãã€å®‰æ˜“ã« cluster2/user/user ã‚’å‰Šé™¤ã™ã‚‹ã“ã¨ã¯ã§ãã¾ã›ã‚“ã€‚ãªãœãªã‚‰ã€ cluster2/user/user ã¨ã„ã†ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã¯ã‚³ãƒ”ãƒ¼å‰ã‹ã‚‰å˜åœ¨ã—ã¦ã„ãŸå¯èƒ½æ€§ãŒã‚ã‚Šã€ãã®ä¸ã«ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒå˜åœ¨ã—ã¦ã„ãŸå¯èƒ½æ€§ãŒã‚ã‚‹ã‹ã‚‰ã§ã™ã€‚ä¸€åº¦æ··ã˜ã£ã¦ã—ã¾ãˆã°ã€cluster1ç”±æ¥ã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã¨cluster2ã‚ªãƒªã‚¸ãƒŠãƒ«ã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã‚’ãµã‚‹ã„åˆ†ã‘ã‚‹ã®ã¯å›°é›£ã§ã—ã‚‡ã†ã€‚-update ã‚ªãƒ—ã‚·ãƒ§ãƒ³ãŒãªã„ã¨ãã‚‚æ±ºã—ã¦æ²¹æ–ã—ã¦ã¯ã„ã‘ã¾ã›ã‚“ã€‚
cluster1ã®/userã‚’cluster2ã®/userã«ã‚³ãƒ”ãƒ¼ã™ã‚‹å ´åˆã€ä»¥ä¸‹ã®ã‚ˆã†ã«æ›¸ãã¹ãã§ã—ãŸã€‚

# ä¾‹6: èª¤ã£ãŸæ–¹æ³•
$ hadoop distcp hdfs://cluster1/user hdfs://cluster2/user
# ä¾‹7: ä¾‹6ã®æ£ã—ã„æ›¸ãæ–¹
$ hadoop distcp hdfs://cluster1/user hdfs://cluster2/

å›³ã«è¡¨ã™ã¨ã€ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

f:id:shiumachi:20200719124216p:plain

æ‰‹å‹•ãƒ»è‡ªå‹•ã§ã®å®Ÿè¡Œã«é–¢ã‚ã‚‰ãšã€ãƒ‘ã‚¹ã®ç¢ºèªã¯çµ¶å¯¾ã«æœ€å¾Œã®æœ€å¾Œã¾ã§ç¢ºå®Ÿã«è¡Œã†ã‚ˆã†ã«ã—ã¦ãã ã•ã„ã€‚

å®Ÿè·µDistCp: ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã‚’å–å¾—ã™ã‚‹

DistCpã¯ã€é€šå¸¸éžå¸¸ã«è†¨å¤§ãªæ™‚é–“ãŒã‹ã‹ã‚Šã¾ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿å…¨ä½“ã®ãƒ‡ãƒ¼ã‚¿è»¢é€ã®å ´åˆã€1æ—¥ã‚„2æ—¥ã¯å½“ãŸã‚Šå‰ã§ã€1é€±é–“ã‚„1ãƒ¶æœˆã«æ¸¡ã£ã¦è»¢é€ã—ç¶šã‘ã‚‹ã€ã¨ã„ã†ã“ã¨ã¯é »ç¹ã«èµ·ã“ã‚Šã¾ã™ã€‚DistCpã¯MapReduceå®Ÿè¡Œå‰ã«å¯¾è±¡ãƒ‘ã‚¹ã®ä¸€è¦§ã‚’å–å¾—ã—ã¾ã™ã®ã§ã€è»¢é€ä¸ã«ã‚½ãƒ¼ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ãŒå¤‰åŒ–ã—ã¦ã‚‚ä¸€åˆ‡è€ƒæ…®ã™ã‚‹ã“ã¨ã¯ã§ãã¾ã›ã‚“ã€‚å¤§æŠµã®å ´åˆã€è»¢é€ä¸ã«ãƒ•ã‚¡ã‚¤ãƒ«ãŒå‰Šé™¤ã•ã‚Œã€ä½•æ—¥ã‚‚ã‹ã‘ãŸDistCpãŒå¤±æ•—ã™ã‚‹ã“ã¨ã«ãªã‚‹ã§ã—ã‚‡ã†ã€‚é‹è‰¯ãè»¢é€ã«æˆåŠŸã—ãŸã¨ã—ã¦ã‚‚ã€ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã®ä¸èº«ã«ä¸æ•´åˆãŒç™ºç”Ÿã—ã¦ã„ã‚Œã°ã€Hiveç‰ã®åˆ¥ã®ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã§ã®å‡¦ç†çµæžœãŒæ„å›³ã—ãªã„ã‚‚ã®ã¨ãªã‚Šã€ã„ã„ã“ã¨ã¯ä¸€ã¤ã‚‚ã‚ã‚Šã¾ã›ã‚“ã€‚ãã®ãŸã‚ã€ã‚½ãƒ¼ã‚¹ã¯ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã‚’æŒ‡å®šã™ã‚‹ã®ãŒé‰„å‰‡ã§ã™ã€‚
ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã®å–å¾—ã¯ã€ä»¥ä¸‹ã®2ã¤ã®ã‚³ãƒžãƒ³ãƒ‰ã‚’é †ç•ªã«å®Ÿè¡Œã—ã¾ã™ã€‚

$ hdfs dfsadmin -allowSnapshot hdfs://cluster1/foo/bar
$ hdfs dfs -createSnapshot hdfs://cluster1/foo/bar snapshot1

hdfs dfsadmin -allowSnapshot ã¯ hdfs ãƒ¦ãƒ¼ã‚¶ã§ãªã„ã¨å®Ÿè¡Œã§ãã¾ã›ã‚“ãŒã€hdfs dfs -createSnapshot ã¯ã€å¯¾è±¡ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã®æ¨©é™ã‚’æŒã£ã¦ã„ã‚‹ä¸€èˆ¬ãƒ¦ãƒ¼ã‚¶ã§ã‚‚å®Ÿè¡Œå¯èƒ½ã§ã™ã€‚ä¸Šè¨˜ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã™ã‚‹ã¨ã€ hdfs://cluster1/foo/bar/.snapshot/snapshot1 ã¨ã„ã†ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªãŒä½œæˆã•ã‚Œã€ã“ã®é…ä¸‹ã«ã¯ hdfs://cluster1/foo/bar ã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã¨å…¨ãåŒã˜ãƒãƒ¼ãƒ‰ãƒªãƒ³ã‚¯ãŒä½œæˆã•ã‚Œã¾ã™ã€‚
snapshot1ã¯ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆåãªã®ã§ã€è‡ªç”±ã«å¤‰æ›´ã—ã¦ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ã¦ãã ã•ã„ã€‚

ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã‚’ä½¿ã£ãŸDistCpã¯ä»¥ä¸‹ã®ã‚ˆã†ã«è¨˜è¿°ã—ã¾ã™ã€‚

$ hadoop distcp hdfs://cluster1/foo/bar/.snapshot/snapshot1 hdfs://cluster2/foo

å®Ÿè·µDistCp: ã‚½ãƒ¼ã‚¹ã¨å®›å…ˆã€ã©ã¡ã‚‰ã®ã‚¯ãƒ©ã‚¹ã‚¿ã§DistCpã‚’å®Ÿè¡Œã™ã‚‹ã‹

DistCpã¯ã€åŸºæœ¬çš„ã«ã¯å®›å…ˆã‚¯ãƒ©ã‚¹ã‚¿å´ã§å®Ÿè¡Œã™ã‚‹ã“ã¨ã‚’æŽ¨å¥¨ã—ã¾ã™ã€‚DistCpã‚’å®›å…ˆã‚¯ãƒ©ã‚¹ã‚¿å´ã§å®Ÿè¡Œã—ãªã‘ã‚Œã°ãªã‚‰ãªã„ã‚±ãƒ¼ã‚¹ã¨ã—ã¦ã¯ä»¥ä¸‹ã®ã‚ˆã†ãªã‚‚ã®ãŒã‚ã‚Šã¾ã™ã€‚

éžã‚»ã‚ãƒ¥ã‚¢ã‚¯ãƒ©ã‚¹ã‚¿ã‹ã‚‰ã‚»ã‚ãƒ¥ã‚¢ã‚¯ãƒ©ã‚¹ã‚¿ã«ãƒ‡ãƒ¼ã‚¿ã‚’ã‚³ãƒ”ãƒ¼ã™ã‚‹å ´åˆ
ä½Žã„ãƒ¡ã‚¸ãƒ£ãƒ¼ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã®ã‚¯ãƒ©ã‚¹ã‚¿ã‹ã‚‰é«˜ã„ãƒ¡ã‚¸ãƒ£ãƒ¼ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã«ãƒ‡ãƒ¼ã‚¿ã‚’ã‚³ãƒ”ãƒ¼ã™ã‚‹å ´åˆ

ã¾ãŸã€æ–°è¦ã‚¯ãƒ©ã‚¹ã‚¿ã¸ã®ãƒ‡ãƒ¼ã‚¿ç§»è¡Œã®å ´åˆã€ã‚½ãƒ¼ã‚¹ã‚¯ãƒ©ã‚¹ã‚¿ã¯é€šå¸¸æ¥å‹™ã®ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãŒç¨¼åƒã—ã¦ã„ã‚‹ä¸€æ–¹ã€å®›å…ˆã‚¯ãƒ©ã‚¹ã‚¿ã¯å¤§æŠµã®å ´åˆæœ¬ç•ªç¨¼åƒå‰ãªã®ã§ã€ã‚½ãƒ¼ã‚¹ã‚¯ãƒ©ã‚¹ã‚¿ã®è² è·ã‚’å¢—ã‚„ã•ãšã«ã€å®›å…ˆã®ãƒªã‚½ãƒ¼ã‚¹ã‚’æœ‰åŠ¹æ´»ç”¨ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

DistCpã‚’ã‚½ãƒ¼ã‚¹ã‚¯ãƒ©ã‚¹ã‚¿ã§å®Ÿæ–½ã—ãªã‘ã‚Œã°ã„ã‘ãªã„ã‚±ãƒ¼ã‚¹ã‚‚ã‚ã‚Šã¾ã™ã€‚ä¾‹ãˆã°ã€ã‚»ã‚ãƒ¥ã‚¢ã‚¯ãƒ©ã‚¹ã‚¿ã‹ã‚‰éžã‚»ã‚ãƒ¥ã‚¢ã‚¯ãƒ©ã‚¹ã‚¿ã¸ãƒ‡ãƒ¼ã‚¿ã‚’è»¢é€ã™ã‚‹å ´åˆã§ã™ã€‚

Clouderaã®ä»¥ä¸‹ã®ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã®è¨˜è¼‰ã‚’å¼•ç”¨ã—ã¾ã™ã€‚

docs.cloudera.com

You can use DistCp and WebHDFS to copy data between a secure cluster and an insecure cluster. Note that when doing this, the distcp commands should be run from the secure cluster.

ã‚»ã‚ãƒ¥ã‚¢ã‚¯ãƒ©ã‚¹ã‚¿ã«ãŠã‘ã‚‹DistCpã®æ–¹æ³•ã«ã¤ã„ã¦ã¯ã“ã®è¨˜äº‹ã§ã¯æ‰±ã„ã¾ã›ã‚“ãŒã€DistCpã‚’ã©ã¡ã‚‰ã®ã‚¯ãƒ©ã‚¹ã‚¿ã§å®Ÿæ–½ã™ã‚‹ã‹ã‚’æ¤œè¨Žã™ã‚‹å ´åˆã«ã¯é ã®ç‰‡éš…ã«ã¨ã©ã‚ã¦ãŠã„ã¦ãã ã•ã„ã€‚

å®Ÿè·µDistCp: ç•°ãªã‚‹ãƒ¡ã‚¸ãƒ£ãƒ¼ãƒãƒ¼ã‚¸ãƒ§ãƒ³é–“ã§ã®ãƒ‡ãƒ¼ã‚¿è»¢é€ã«webhdfsã‚’ä½¿ã†

webhdfsãƒ—ãƒãƒˆã‚³ãƒ«ã‚’ä½¿ã†ã“ã¨ã§ã€ãƒ¡ã‚¸ãƒ£ãƒ¼ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã®ä½Žã„ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‹ã‚‰é«˜ã„ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã¸ã®ãƒ‡ãƒ¼ã‚¿è»¢é€ã‚’è¡Œã†ã“ã¨ãŒã§ãã¾ã™ã€‚

$ hadoop distcp webhdfs://cluster1/foo/bar hdfs://cluster2/foo

ä»¥ä¸‹ã¯å‚è€ƒãƒªãƒ³ã‚¯ã§ã™ã€‚

docs.cloudera.com

å®Ÿè·µDistCp: -p ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã®æŒ™å‹•

ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§ã¯ã€DistCpã¯ãƒ•ã‚¡ã‚¤ãƒ«å±žæ€§ç‰ã¯ã‚³ãƒ”ãƒ¼ã—ã¾ã›ã‚“ã€‚ãƒ•ã‚¡ã‚¤ãƒ«å±žæ€§ã‚’ã‚³ãƒ”ãƒ¼ã™ã‚‹ã«ã¯ -p ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ä½¿ã„ã¾ã™ãŒã€ã“ã®ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã®æŒ™å‹•ã«ã¯æ§˜ã€…ãªåˆ¶ç´„äº‹é …ãŒå˜åœ¨ã—ã¾ã™ã€‚ä¾‹ãˆã°ã€ -update ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã¯ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã®ä¸èº«ãŒåŒä¸€ã®ãƒ‘ã‚¹ã«å¯¾ã—ã¦ã¯ã‚³ãƒ”ãƒ¼ã‚’å®Ÿæ–½ã—ã¾ã›ã‚“ãŒã€ã“ã®ã¨ããƒ•ã‚¡ã‚¤ãƒ«å±žæ€§ã ã‘ãŒé•ã£ã¦ã„ã¦ã‚‚ãã®å±žæ€§ã‚’æ›´æ–°ã—ãŸã‚Šã¯ã—ã¾ã›ã‚“ã€‚
ä»¥ä¸‹ã®ä¾‹ã§ã€ä¸¡ã‚¯ãƒ©ã‚¹ã‚¿ã« /foo/bar/file1 ã¨ã„ã†ãƒ•ã‚¡ã‚¤ãƒ«ãŒã‚ã‚‹ã¨ã—ã¾ã™ã€‚

$ hadoop distcp -update hdfs://cluster1/foo/bar hdfs://cluster2/foo

ã“ã®ã¨ãã€cluster1/foo/bar/file1 ã®ãƒ‘ãƒ¼ãƒŸãƒƒã‚·ãƒ§ãƒ³ãŒ644ã§ã€ cluster2/foo/bar/file1 ã®ãƒ‘ãƒ¼ãƒŸãƒƒã‚·ãƒ§ãƒ³ãŒ600ã¨ãªã£ã¦ã„ã¦ã€ãƒ•ã‚¡ã‚¤ãƒ«ã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ãŒå…¨ãåŒä¸€ã§ã‚ã‚‹å ´åˆã€cluster2/foo/bar/file1 ã®ãƒ‘ãƒ¼ãƒŸãƒƒã‚·ãƒ§ãƒ³ã¯ 600 ã®ã¾ã¾å¤‰æ›´ã•ã‚Œã¾ã›ã‚“ã€‚

åˆ¥ã®ä¾‹ã‚’ç´¹ä»‹ã—ã¾ã—ã‚‡ã†ã€‚ -pt ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ä½¿ã†ã¨æ›´æ–°æ—¥æ™‚ãªã©ã‚’ä¿æŒã§ãã¾ã™ãŒã€ã“ã®ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã¯ã€NameNodeã®è¨å®šã®ä¸€ã¤ã€ dfs.namenode.accesstime.precision (ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆ1æ™‚é–“) ãŒ0(ç„¡åŠ¹)ã®å ´åˆåˆ©ç”¨ã§ãã¾ã›ã‚“ã€‚dfs.namenode.accesstime.precision ã‚’ 0 ã«ã—ãŸã¾ã¾ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ã¦ã‚‚ã€å¤±æ•—ã—ã¾ã™ã€‚

$ hadoop distcp -pt hdfs://cluster1/foo/bar hdfs://cluster2/foo

Error: org.apache.hadoop.ipc.RemoteException(java.io.IOException): Access time for hdfs is not configured. Please set dfs.namenode.accesstime.precision configuration parameter.

ã‚¢ã‚¯ã‚»ã‚¹æ™‚é–“ã®è¨å®šã¯ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã®æœ€é©åŒ–ã®ãŸã‚ã«0ã«ã™ã‚‹ã®ãŒæŽ¨å¥¨ã§ã€Ambari / HDP ã¯ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆ0ã«ãªã£ã¦ã„ã¾ã™ãŒã€ã‚³ãƒŸãƒ¥ãƒ‹ãƒ†ã‚£ç‰ˆã‚‚Clouderaã‚‚ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆ1æ™‚é–“ãªã®ã§ã€è¨å®šãã®ã‚‚ã®ã‚’çŸ¥ã‚‰ãªã„äººã‚‚å¤šã„ã¨æ€ã„ã¾ã™ã€‚ -p ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ä½¿ã†ã¨ãã¯ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’èªã‚€ã ã‘ã§è¨è¨ˆã›ãšã€å¿…ãšæ¤œè¨¼ã‚’ã—ã¦ãã ã•ã„ã€‚

å®Ÿè·µDistCp: 2ã¤ã®ã‚³ãƒ”ãƒ¼æˆ¦ç•¥: uniformizeã¨dynamic

DistCpãŒå„Mapã‚¿ã‚¹ã‚¯ã«å‡¦ç†å¯¾è±¡ã®ãƒ‘ã‚¹ã‚’æŒ¯ã‚Šåˆ†ã‘ã‚‹æˆ¦ç•¥ã¯2ã‚¿ã‚¤ãƒ—å˜åœ¨ã—ã¾ã™ã€‚ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã¯uniformizeã¨ã„ã†ã€ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚ºã§åˆ†å‰²ã™ã‚‹æ–¹æ³•ã§ã™ã€‚ä¾‹ãˆã°è»¢é€å¯¾è±¡ã®ãƒ‡ãƒ¼ã‚¿ãŒ100TBã‚ã‚Šã€mapã‚¿ã‚¹ã‚¯ã‚’1000ã§è¨å®šã—ãŸå ´åˆã€å„mapã‚¿ã‚¹ã‚¯ã¯100GBã®ãƒ‡ãƒ¼ã‚¿ã‚’è»¢é€ã™ã‚‹ã‚ˆã†ã«ã€ãƒ•ã‚¡ã‚¤ãƒ«ãƒ‘ã‚¹ã‚’æŒ¯ã‚Šåˆ†ã‘ã‚‰ã‚Œã¾ã™ã€‚ã“ã®æŒ™å‹•ã¯ã€ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’èªã‚ã°ã‚ã‹ã‚Šã¾ã™ãŒã€ãƒªã‚¹ãƒˆã•ã‚ŒãŸãƒ•ã‚¡ã‚¤ãƒ«ã‚’ä¸Šã‹ã‚‰é †ã«å–ã‚Šå‡ºã—ã¦ã„ãã‚µã‚¤ã‚ºã‚’è¶³ã—ã¦ã„ãã€è»¢é€å¯¾è±¡ã®å…¨ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚º/mapæ•°ã‚’è¶…ãˆãŸã‚‰æ¬¡ã®mapã‚¿ã‚¹ã‚¯ã«æ¸¡ã™ã€ã¨ã„ã†æ“ä½œã‚’è¡Œã£ã¦ã„ã¾ã™ã€‚

github.com

ç†æƒ³çš„ãªHDFSã®ç’°å¢ƒã§ã¯ã“ã‚Œã§å•é¡Œãªã„ã®ã§ã™ãŒã€å°ã•ã„ãƒ•ã‚¡ã‚¤ãƒ«ãŒå¤§é‡ã«ã‚ã‚‹ç’°å¢ƒã®å ´åˆã¯ã€uniformizeã§ã¯ã†ã¾ãã„ãã¾ã›ã‚“ã€‚
uniformizeã§ã¯ã€ã©ã‚Œã ã‘ãŸãã•ã‚“ã®ãƒ•ã‚¡ã‚¤ãƒ«ãŒã‚ã£ã¦ã‚‚ã€ä¸€å®šã®ã‚µã‚¤ã‚ºã‚’è¶…ãˆãªã„é™ã‚Šã¯ãã‚Œã‚‰ã®ãƒ•ã‚¡ã‚¤ãƒ«ãŒ1mapã‚¿ã‚¹ã‚¯ã«å‰²ã‚Šå½“ã¦ã‚‰ã‚Œã¦ã—ã¾ã„ã¾ã™ã€‚å‰²ã‚Šå½“ã¦ã‚‰ã‚Œã‚‹ãƒ•ã‚¡ã‚¤ãƒ«ã¯ã€ãƒ•ã‚¡ã‚¤ãƒ«ãƒªã‚¹ãƒˆã®ä¸Šã‹ã‚‰é †ã«ãƒ•ã‚¡ã‚¤ãƒ«ã‚’å–ã‚Šå‡ºã•ã‚Œã¾ã™ã€‚ãƒ•ã‚¡ã‚¤ãƒ«ãƒªã‚¹ãƒˆã¯ã€å˜ç´”ã«å¯¾è±¡ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã®é…ä¸‹ã®ãƒ•ã‚¡ã‚¤ãƒ«ãƒ»ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã‚’å†å¸°çš„ã«ãƒªã‚¹ãƒˆã—ã¦ã„ã‚‹ã ã‘ãªã®ã§ã€åŒä¸€ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã®ãƒ•ã‚¡ã‚¤ãƒ«ã¯ä¸€ç®‡æ‰€ã«å›ºã¾ã£ã¦ã„ã¾ã™ã€‚ãã®çµæžœã€ã‚ã‚‹ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã®ãƒ•ã‚¡ã‚¤ãƒ«ã¯1ã‚¿ã‚¹ã‚¯ã«é›†ä¸ã™ã‚‹ã“ã¨ã«ãªã‚Šã¾ã™ã€‚
1ãƒ•ã‚¡ã‚¤ãƒ«ã«å¯¾ã™ã‚‹HDFSã‚¢ã‚¯ã‚»ã‚¹ã¯éžå¸¸ã«é…ã„ã§ã™ã€‚ç’°å¢ƒã«ã‚‚ã‚ˆã‚Šã¾ã™ãŒã€1ãƒ•ã‚¡ã‚¤ãƒ«ã‚ãŸã‚Šæ•°msã®ã‚ªãƒ¼ãƒ€ãƒ¼ã¯è¦‹ãŸã»ã†ãŒã„ã„ã§ã—ã‚‡ã†ã€‚ãã®ãŸã‚ã€ã‚¹ãƒ¢ãƒ¼ãƒ«ãƒ•ã‚¡ã‚¤ãƒ«ãŒå¤šã„ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã§ã¯ã€ãƒ‡ãƒ¼ã‚¿è»¢é€é€Ÿåº¦ã¯éžå¸¸ã«é…ããªã‚Šã¾ã™ã€‚ãã—ã¦ã€å¤šãã®å ´åˆã€ã‚¹ãƒ¢ãƒ¼ãƒ«ãƒ•ã‚¡ã‚¤ãƒ«ã¯å±€æ‰€åŒ–ã—ã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯ã™ãªã‚ã¡ã€ç‰¹å®šã®ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã«ã‚¹ãƒ¢ãƒ¼ãƒ«ãƒ•ã‚¡ã‚¤ãƒ«ãŒé›†ä¸ã—ã¦ã„ã‚‹ã“ã¨ã‚’æ„å‘³ã—ã¾ã™ã€‚
ã¾ã¨ã‚ã‚‹ã¨ã€ç‰¹å®šã®ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã«é›†ä¸ã—ãŸã‚¹ãƒ¢ãƒ¼ãƒ«ãƒ•ã‚¡ã‚¤ãƒ«ç¾¤ãŒã¾ã¨ã‚ã¦1ã¤ã®mapã‚¿ã‚¹ã‚¯ã«å‰²ã‚Šå½“ã¦ã‚‰ã‚Œã‚‹çµæžœã€mapã‚¿ã‚¹ã‚¯ã®ã‚¹ã‚ãƒ¥ãƒ¼ãŒç™ºç”Ÿã—ã€ãã®mapã‚¿ã‚¹ã‚¯ã ã‘ãŒæ¥µç«¯ã«é…ããªã‚‹ã¨ã„ã†ç¾è±¡ãŒç™ºç”Ÿã—ã¾ã™ã€‚

ã“ã®ã‚ˆã†ãªç’°å¢ƒã§ã¯ã€dynamic ã¨ã„ã†ã‚‚ã†ä¸€ã¤ã®ã‚³ãƒ”ãƒ¼æˆ¦ç•¥ã‚’ä½¿ã„ã¾ã™ã€‚dynamic ã¯ãƒ•ã‚¡ã‚¤ãƒ«æ•°ã§ã‚¿ã‚¹ã‚¯ã‚ãŸã‚Šã®å‰²å½“ã‚’åˆ†å‰²ã™ã‚‹ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§ã™ã€‚ä¾‹ãˆã°ã€1å„„ãƒ•ã‚¡ã‚¤ãƒ«ã‚ã‚‹ã‚·ã‚¹ãƒ†ãƒ ã§1000mapã‚¿ã‚¹ã‚¯ã§å‡¦ç†ã‚’åˆ†å‰²ã™ã‚‹å ´åˆã€1ã‚¿ã‚¹ã‚¯ã‚ãŸã‚Š10ä¸‡ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æ‹…å½“ã™ã‚‹ã“ã¨ã«ãªã‚Šã¾ã™ã€‚
dynamicã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ä½¿ã†å ´åˆã€uniformizeã¨é€†ã«ã€æ¥µç«¯ã«ãƒ•ã‚¡ã‚¤ãƒ«ã‚µã‚¤ã‚ºãŒå¤§ãã„ãƒ‡ãƒ¼ã‚¿ãŒé›†ä¸ã—ã¦ã„ã‚‹ã‚±ãƒ¼ã‚¹ã«æ³¨æ„ã—ã¦ãã ã•ã„ã€‚ãƒ•ã‚¡ã‚¤ãƒ«ã‚µã‚¤ã‚ºã‚’è€ƒæ…®ã—ãªã„ã§ãƒ‡ãƒ¼ã‚¿ã‚’åˆ†å‰²ã™ã‚‹ãŸã‚ã€ç‰¹å®šã®ã‚¿ã‚¹ã‚¯ã ã‘æ¥µç«¯ã«å¤§ããªãƒ‡ãƒ¼ã‚¿ã‚’å‡¦ç†ã—ãªã‘ã‚Œã°ã„ã‘ãªã„ã¨ã„ã†ãƒªã‚¹ã‚¯ãŒç™ºç”Ÿã—ã¾ã™ã€‚è»¢é€å¯¾è±¡ã®ãƒ‡ãƒ¼ã‚¿ç‰¹æ€§ã¯å¿…ãšäº‹å‰ã«èª¿æŸ»ã—ã¾ã—ã‚‡ã†ã€‚
dynamic æˆ¦ç•¥ã‚’ä½¿ã†ã«ã¯ã€ä»¥ä¸‹ã®ã‚ˆã†ã«ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ä¸Žãˆã¾ã™ã€‚

$ hadoop distcp -strategy dynamic hdfs://cluster1/foo/bar hdfs://cluster2/foo

å®Ÿè·µDistCp: mapæ•°ã®èª¿æ•´

ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§ã¯DistCpã¯20mapã‚¿ã‚¹ã‚¯ã—ã‹ä½¿ç”¨ã—ã¾ã›ã‚“ã€‚ãƒ‡ãƒ¼ã‚¿é‡ã‚„ãƒªã‚½ãƒ¼ã‚¹çŠ¶æ³ã«å¿œã˜ã¦ã€mapæ•°ã®èª¿æ•´ã‚’ã—ãŸã»ã†ãŒã„ã„ã§ã—ã‚‡ã†ã€‚ä»¥ä¸‹ã®ä¾‹ã¯ã€mapæ•°ã‚’100ã¨ã™ã‚‹å ´åˆã®ä¾‹ã§ã™ã€‚

$ hadoop distcp -m 100 hdfs://cluster1/foo/bar hdfs://cluster2/foo

mapæ•°ã®èª¿æ•´ã¯ã€åŸºæœ¬çš„ãªHadoopã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã¨åŒæ§˜ã€ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸IOã‚„ãƒªã‚½ãƒ¼ã‚¹ã«å¿œã˜ã¦èª¿æ•´ã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ãƒªã‚½ãƒ¼ã‚¹ã‚’ãƒ•ãƒ«ã«ä½¿ãˆã‚‹ã®ã§ã‚ã‚Œã°ã€ç·ãƒ‡ã‚£ã‚¹ã‚¯æ•°ã®1ï½ž2å€ãã‚‰ã„ã«ã—ã¦ãŠãã®ãŒã„ã„ã¨æ€ã„ã¾ã™ãŒã€ä¾‹ãˆã°ã‚¹ãƒ¢ãƒ¼ãƒ«ãƒ•ã‚¡ã‚¤ãƒ«ä¸å¿ƒã®ã‚¯ãƒ©ã‚¹ã‚¿ã®å ´åˆIOã‚ˆã‚Šã‚‚CPUä¾å˜ã«ãªã‚‹ã¯ãšãªã®ã§ã€CPUã‚³ã‚¢æ•°ã‹ã‚‰ã‚¿ã‚¹ã‚¯æ•°ã‚’è¨ˆç®—ã—ãŸæ–¹ãŒã„ã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã—ã€ã‚¯ãƒ©ã‚¹ã‚¿ã®ãƒªã‚½ãƒ¼ã‚¹ãŒé€¼è¿«ã—ã¦ã„ã‚‹çŠ¶æ…‹ã§ã‚ã‚Œã°ã‚€ã—ã‚mapæ•°ã‚’æ¸›ã‚‰ã—ã¦ã‚†ã£ãã‚Šå‡¦ç†ã—ãŸæ–¹ãŒã„ã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ã“ã®ã‚ãŸã‚Šã®è¨ˆç®—ã«è‡ªä¿¡ãŒãªã‘ã‚Œã°ã€ã¾ãšã¯ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§è©¦é¨“çš„ã«è»¢é€ã—ã¦ã¿ã¦ã€è»¢é€é€Ÿåº¦ã‚’è¨ˆç®—ã—ãŸä¸Šã§å¿…è¦ãŒã‚ã‚Œã°ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã™ã‚‹ã¨ã„ã†ç¨‹åº¦ã§ã„ã„ã¨æ€ã„ã¾ã™ã€‚

å®Ÿè·µDistCp: è»¢é€å¸¯åŸŸ

ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã®å¸¯åŸŸãƒªã‚½ãƒ¼ã‚¹ãŒé€¼è¿«ã—ã¦ã„ã‚‹å ´åˆã¯ã€è»¢é€ç”¨ã®å¸¯åŸŸã‚’åˆ¶å¾¡ã—ãŸæ–¹ãŒã„ã„ã§ã—ã‚‡ã†ã€‚ä»¥ä¸‹ã®ã‚ˆã†ã«è¨å®šã™ã‚‹ã“ã¨ã§ã€1mapã‚ãŸã‚Šã®è»¢é€å¸¯åŸŸã‚’10MB/sã«æŠ‘ãˆã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

$ hadoop distcp -bandwidth 10 hdfs://cluster1/foo/bar hdfs://cluster2/foo

ã“ã®è¨˜äº‹ã§æ›¸ã„ã¦ã„ãªã„ã“ã¨

ãŸã ã‚³ãƒ”ãƒ¼ã™ã‚‹ã¨ã„ã£ã¦ã‚‚ã€ç´°ã‹ã„è¦ä»¶ã¯ãƒ—ãƒã‚¸ã‚§ã‚¯ãƒˆã«ã‚ˆã£ã¦ç•°ãªã‚Šã€ãã‚Œã«å¿œã˜ã¦DistCpã®æ§˜ã€…ãªæ©Ÿèƒ½ã‚’æ´»ç”¨ã—ã¦ã„ãå¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚
ã“ã®è¨˜äº‹ã§ã‚«ãƒãƒ¼ã—ã¦ã„ãªã„å†…å®¹ã¯ä»¥ä¸‹ã®é€šã‚Šã§ã™ã€‚

snapshot diff ã‚’ä½¿ã£ãŸå®šå¸¸çš„ãªå·®åˆ†ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—
ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã‚’å¯¾è±¡ã¨ã—ãŸDistCp

ãã—ã¦ã€ã‚¯ãƒ©ã‚¹ã‚¿ç§»è¡Œã¨ã„ã†è©±ã«ãªã£ãŸã¨ãã¯ã€å¿…è¦ãªä½œæ¥ã¯DistCpã ã‘ã§ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚ä¾‹ãˆã°ã€Hiveãƒ¡ã‚¿ã‚¹ãƒˆã‚¢DBã®ãƒ‡ãƒ¼ã‚¿ç§»è¡Œã‚„ã€ç®¡ç†ãƒ„ãƒ¼ãƒ«ã®ãƒ‡ãƒ¼ã‚¿ç§»è¡Œãªã©ã€è€ƒãˆã‚‹ã¹ãèª²é¡Œã¯ä»–ã«ã‚‚ã‚ã‚Šã¾ã™ã€‚ã“ã‚Œã‚‰ã«ã¤ã„ã¦ã€æœ€æ–°ã®æƒ…å ±ã‚’ãƒ™ãƒ¼ã‚¹ã«ä½“ç³»çš„ã«ã¾ã¨ã‚ã‚‰ã‚ŒãŸæ›¸ç±ã¯å˜åœ¨ã—ãªã„ã®ã§ã€ã‚‚ã—è‡ªä¿¡ãŒãªã„ã¨ã„ã†å ´åˆã¯Clouderaç‰ã®ãƒ™ãƒ³ãƒ€ãƒ¼ã«ç›¸è«‡ã™ã‚‹ã“ã¨ã‚’ãŠã™ã™ã‚ã—ã¾ã™ã€‚

å‚è€ƒãƒªãƒ³ã‚¯

æ—¢å‡ºã‚‚å«ã‚ã¦ã€å‚è€ƒãƒªãƒ³ã‚¯ã‚’ã¾ã¨ã‚ã¦ãŠãã¾ã™ã€‚

è¬è¾ž

æœ¬è¨˜äº‹ã®åŸ·ç†ã«ã‚ãŸã‚Šã€ä»¥ä¸‹ã®æ–¹ã€…ã«ãƒ¬ãƒ“ãƒ¥ãƒ¼ã—ã¦ã„ãŸã ãã¾ã—ãŸã€‚ã“ã®å ´ã‚’å€Ÿã‚Šã¦ãŠç¤¼ç”³ã—ä¸Šã’ã¾ã™ã€‚(é †ä¸åŒã€æ•¬ç§°ç•¥)

ãªã‚“ã§ä»Šæ›´DistCpï¼Ÿ

DistCpã®æ¦‚è¦

DistCpã®åŽŸç†

å®Ÿè·µDistCp: ãƒ‰ãƒ©ã‚¤ãƒ©ãƒ³ã¯ãªã„

å®Ÿè·µDistCp: ã‚³ãƒ”ãƒ¼ã¨ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã®æŒ™å‹•ã®é•ã„ã‚’æŠ¼ã•ãˆã‚‹

å®Ÿè·µDistCp: ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã‚’å–å¾—ã™ã‚‹

å®Ÿè·µDistCp: ã‚½ãƒ¼ã‚¹ã¨å®›å…ˆã€ã©ã¡ã‚‰ã®ã‚¯ãƒ©ã‚¹ã‚¿ã§DistCpã‚’å®Ÿè¡Œã™ã‚‹ã‹

å®Ÿè·µDistCp: ç•°ãªã‚‹ãƒ¡ã‚¸ãƒ£ãƒ¼ãƒãƒ¼ã‚¸ãƒ§ãƒ³é–“ã§ã®ãƒ‡ãƒ¼ã‚¿è»¢é€ã«webhdfsã‚’ä½¿ã†

å®Ÿè·µDistCp: -p ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã®æŒ™å‹•

å®Ÿè·µDistCp: 2ã¤ã®ã‚³ãƒ”ãƒ¼æˆ¦ç•¥: uniformizeã¨dynamic

å®Ÿè·µDistCp: mapæ•°ã®èª¿æ•´

å®Ÿè·µDistCp: è»¢é€å¸¯åŸŸ

ã“ã®è¨˜äº‹ã§æ›¸ã„ã¦ã„ãªã„ã“ã¨

å‚è€ƒãƒªãƒ³ã‚¯

è¬è¾ž