DynamoDB + Data Pipeline + S3 + Google Chart API ã‚’å°‘ã—ãšã¤ä½¿ã£ã¦ãã‚‰ã¾ã‚å›ã§æä¾›ã•ã‚Œã¦ã„ã‚‹å¤§æ°—ä¸ã®æ±šæŸ“ç‰©è³ªæ¿ƒåº¦é€Ÿå ±ãƒ‡ãƒ¼ã‚¿ã‚’å¯è¦–åŒ–ã™ã‚‹ã‚µã‚¤ãƒˆã‚’ä½œã£ã¦ã¿ãŸ

ä»¥ä¸‹ã€è‡ªåˆ†ãŒä»Šå¾Œãƒ¡ãƒ³ãƒ†ãƒŠãƒ³ã‚¹ã™ã‚‹ç‚ºã«ã‚‚å¿…è¦ãªã®ã§ãƒ¡ãƒ¢ã£ã¦ãŠãã€‚

tl;dr

ä»Šã¾ã§ã®å¾©ç¿’ã®ã¤ã‚‚ã‚Šã§ DynamoDB + Datapipeline + S3 + Google Chart API ã‚’å°‘ã—ãšã¤ä½¿ã£ã¦ãã‚‰ã¾ã‚å›ã§æä¾›ã•ã‚Œã¦ã„ã‚‹å¤§æ°—ä¸ã®æ±šæŸ“ç‰©è³ªæ¿ƒåº¦é€Ÿå ±ãƒ‡ãƒ¼ã‚¿ã‚’å¯è¦–åŒ–ã™ã‚‹ã‚µã‚¤ãƒˆã‚’ä½œã£ã¦ã¿ãŸã€‚

f:id:inokara:20150917171330p:plain

æ—¢ã«ä»¥ä¸‹ã®ã‚ˆã†ãª API ã‚„ã‚¢ãƒ—ãƒªã‚’ä½œæˆã•ã‚Œã¦ã„ã‚‹æ–¹ãŒã„ã‚‰ã£ã—ã‚ƒã‚‹ã®ã§ãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ ã«æƒ…å ±ã‚’å–å¾—ã—ãŸã„å ´åˆã«ã¯ãã¡ã‚‰ã‚’åˆ©ç”¨ã—ã¾ã—ã‚‡ã†ã€‚

è‡ªåˆ†ãŒä½œã£ãŸã®ã¯å‰æ—¥åˆ†ã® PM2.5 æ¿ƒåº¦ã®é·ç§»ã‚’è¦‹ã‚Œã‚‹ã ã‘ã®ã‚·ãƒ³ãƒ—ãƒ«ãªã‚‚ã®ãªã®ã§ã€å¤ä¼‘ã¿ã®è‡ªç”±ç ”ç©¶ã¨ã‹ã«ã‚³ãƒ”ãƒšã§ä½¿ã£ã¦ã‚‚ã‚‰ãˆã‚‹ã¨å¬‰ã—ã„ãªã‚...æ—¢ã«å¤ä¼‘ã¿ã¯çµ‚ã‚ã£ã¦ã„ã‚‹ã‘ã©ã€‚ï¼ˆæ¥å¹´ã®å¤ä¼‘ã¿ã®æ™‚æœŸã¾ã§é‹ç”¨ã•ã‚Œã¦ã„ã‚Œã°è²´é‡ãªãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã«ãªã£ã¦ã„ã‚‹ã“ã¨ã§ã—ã‚‡ã†...ï¼‰

memo ã¨ã‹ã‚¦ãƒ³ãƒã‚¯ã¨ã‹

æ§‹æˆå›³

f:id:inokara:20150918081602p:plain

å‡¦ç†ã®æµã‚Œ

f:id:inokara:20150918090708p:plain

ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã¨ã‹

ãƒ¡ã‚¤ãƒ³ã¨ãªã‚‹ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰

github.com

Data Pipeline ã®ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³å®šç¾©

{
  "objects": [
    {
      "directoryPath": "#{myS3OutputLoc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3OutputLocation",
      "id": "S3OutputLocation",
      "type": "S3DataNode"
    },
    {
      "output": {
        "ref": "S3OutputLocation"
      },
      "stage": "true",
      "name": "ShellCommandActivityObj",
      "id": "ShellCommandActivityObj",
      "runsOn": {
        "ref": "EC2ResourceObj"
      },
      "type": "ShellCommandActivity",
      "command": "#{myShellCmd}"
    },
    {
      "subnetId": "subnet-12345678",
      "imageId": "ami-12345678",
      "securityGroupIds": "sg-12345678",
      "instanceType": "t1.micro",
      "name": "EC2ResourceObj",
      "keyPair": "xxxxxxxxxxxxxxxxxxxxxxx",
      "id": "EC2ResourceObj",
      "type": "Ec2Resource",
      "terminateAfter": "15 Minutes"
    },
    {
      "period": "1 Day",
      "startDateTime": "2015-09-17T07:59:00",
      "name": "RunOnce",
      "id": "DefaultSchedule",
      "type": "Schedule"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "scheduleType": "cron",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "S3 output folder",
      "id": "myS3OutputLoc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "default": "s3://us-east-1.elasticmapreduce.samples/pig-apache-logs/data",
      "description": "S3 input folder",
      "id": "myS3InputLoc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "default": "grep -rc \"GET\" ${INPUT1_STAGING_DIR}/* > ${OUTPUT1_STAGING_DIR}/output.txt",
      "description": "Shell command to run",
      "id": "myShellCmd",
      "type": "String"
    }
  ],
  "values": {
    "myShellCmd": "mkdir /tmp/build\ncd /tmp/build\nwget https://raw.githubusercontent.com/inokappa/oreno-pipeline/master/Dockerfile\ndocker build --no-cache=true -t soramame-runner .\ndocker run --env 'AWS_REGION=ap-northeast-1' --env 'S3_BUCKET=your.example.com' soramame-runner > ${OUTPUT1_STAGING_DIR}/output.txt",
    "myS3InputLoc": "s3://your-input-bucket/",
    "myS3OutputLoc": "s3://your-output-bucket/"
  }
}

Data Pipeline ã§åˆ©ç”¨ã™ã‚‹ Dockerfile

FROM ruby
MAINTAINER inokappa
RUN apt-get update
RUN git clone https://github.com/inokappa/oreno-soramame-pipeline.git /app
RUN chmod 755 /app/run.sh
RUN mkdir -p /app/output/html
RUN mkdir -p /app/output/png
RUN gem install aws-sdk nokogiri googlecharts --no-ri --no-rdoc

CMD /app/run.sh

Data Pipeline ã¯

ä¸€æ—¥ä¸€å›žã®å‡¦ç†ï¼ˆcronï¼‰ã¨ã—ã¦åˆ©ç”¨
Shell Activity ã«ã¦ Docker ã‚³ãƒ³ãƒ†ãƒŠã‚’åˆ©ç”¨
æ¨™æº–å‡ºåŠ›ã‚’ S3 ã«ä¿å˜ï¼ˆS3 Output Location ã§å®šç¾©ã—ãŸå‡ºåŠ›å…ˆã«å‡ºåŠ›ï¼‰

Docker ã‚³ãƒ³ãƒ†ãƒŠ

å‡¦ç†ã‚’è¡Œã†ã‚¹ã‚¯ãƒªãƒ—ãƒˆã‚’ã‚³ãƒ³ãƒ†ãƒŠåŒ–
AMI ä½œã‚‹ã‚ˆã‚Šã‚‚æ¥½ã€ã‚¹ã‚¯ãƒªãƒ—ãƒˆã®ãƒ¡ãƒ³ãƒ†ãƒŠãƒ³ã‚¹ã—æ˜“ã„ï¼ˆã¨æ€ã£ãŸï¼‰
æ¯Žå›ž build ã•ã›ã‚‹ï¼ˆæœ€æ–°ã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã§å‡¦ç†ã•ã›ã‚‹ã“ã¨ãŒå‡ºæ¥ã‚‹ã—ãƒ“ãƒ«ãƒ‰ã®æ™‚é–“ã¯ 5 åˆ†ç¨‹åº¦ãªã®ã§å…¨ä½“ã®å‡¦ç†æ™‚é–“ã¸ã®å½±éŸ¿ã¯å°‘ãªã„ï¼‰

æœ€å¾Œã«

æ„Ÿã˜ãŸã“ã¨

Data Pipeline ã® Shell Activity ã¯ Cron ã®ä»£æ›¿ã«ãªã‚Šã†ã‚‹ï¼ˆä½†ã— 15 åˆ†æœªæº€ã®é–“éš”ã‚’å®šç¾©ã™ã‚‹ã“ã¨ã¯å‡ºæ¥ãªã„ã®ã§æ³¨æ„ï¼‰
ã¡ã‚‡ã£ã¨ã—ãŸã‚¹ã‚¯ãƒªãƒ—ãƒˆã¨ã‹ã‚‚ Docker ã‚³ãƒ³ãƒ†ãƒŠåŒ–ã—ã¦ãŠãã¨ã‚ˆã•æ°—
DynamoDB ã® Scan ã‚„ Query ã®ãƒ•ã‚£ãƒ«ã‚¿ãŒã‚¤ãƒžã‚¤ãƒç†è§£å‡ºæ¥ã¦ã„ãªã„

æ”¹å–„æ¡ˆ

DynamoDB ã®æ¤œç´¢çµæžœãŒæ€ªã—ã„ï¼ˆæŠ½å‡ºæ¡ä»¶ã®æŒ‡å®šæ–¹æ³•ãŒæ€ªã—ã„ï¼‰ã®ã§è¦‹ç›´ã™
å‡ºæ¥ã‚‹ã ã‘ãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ æ€§ã‚’æŒãŸã›ã‚‹ã‚ˆã†ã«ã™ã‚‹

ã‚ˆã†ã¸ã„ã®æ—¥ã€…ç²¾é€²XP

ã‚ˆã‹ã‚ã†ã‚‚ã‚“

tl;dr