æ•°å„„ãƒ‡ãƒ¼ã‚¿ã‚’å‡¦ç†ã™ã‚‹ä»•çµ„ã¿ã‚’æä¾›ã™ã‚‹ gem ã€ŽMedPipeã€ ã‚’ OSS ã¨ã—ã¦å…¬é–‹ã—ã¾ã—ãŸ

ã“ã‚“ã«ã¡ã¯ã€‚ã‚µãƒ¼ãƒãƒ¼ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã®ä½è—¤å¤ªä¸€(@teach_kaiju)ã§ã™ã€‚
æœ¬è¨˜äº‹ã§ã¯ç¤¾å†…ã§é–‹ç™ºã—ãŸã€æ•°å„„ã®ãƒ‡ãƒ¼ã‚¿ã‚’å‡¦ç†ã™ã‚‹ä»•çµ„ã¿ã‚’æä¾›ã™ã‚‹ gem MedPipe ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚

MedPipe ã¨ã¯

ã€ŒLog ã®ãƒ‡ãƒ¼ã‚¿ã‚’å…¨ã¦å–å¾—ã—ã€ãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã—ã¦ tsv ã¨ã—ã¦ S3 ã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã™ã‚‹ã€ã¨ã„ã†è¦ä»¶ãŒã‚ã£ãŸã¨ã—ã¾ã™ã€‚
ã“ã®è¦ä»¶ã‚’å®Ÿç¾ã™ã‚‹ãŸã‚ã«ã€ä¾‹ãˆã°ä»¥ä¸‹ã®ã‚ˆã†ãªå®Ÿè£…ã‚’è€ƒãˆã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

upload_file_name = "hoge_logs.csv"
# 1. S3ã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã™ã‚‹ãŸã‚ã® file ã‚’ç”¨æ„
Tempfile.create do |file|
  # 2. Log ã®ãƒ‡ãƒ¼ã‚¿ã‚’ DB ã‹ã‚‰å–å¾—
  HogeLog.find_each do |log|
    # 3. ãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆå‡¦ç†
    formatted_data = format(log)
    # 4. ãƒ•ã‚¡ã‚¤ãƒ«ã«æ›¸ãè¾¼ã¿
    line = CSV.generate_line(formatted_data, col_sep: "\t")
    file.puts(line)
  end

  # 5. S3ã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰
  upload_s3(file, upload_file_name)
end

def format(log)
  # å‡¦ç†
end

def upload_s3(file, upload_file_name)
  # å‡¦ç†
end

ãã‚Œã«å¯¾ã—ã¦ã€MedPipe ã‚’ä½¿ã†ã¨ä»¥ä¸‹ã®ã‚ˆã†ã«è¨˜è¿°ã§ãã¾ã™ã€‚

upload_file_name = "hoge_logs.csv"
pipeline = MedPipe::Pipeline.new
pipeline.apply(PipelineTask::HogeLogReader.new) # 1. Log ã®ãƒ‡ãƒ¼ã‚¿ã‚’ DB ã‹ã‚‰å–å¾—
        .apply(PipelineTask::HogeLogFormatter.new) # 2. ãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆå‡¦ç†
        .apply(MedPipe::PipelineTask::TsvGenerater.new) # 3. ãƒ•ã‚¡ã‚¤ãƒ«ã«æ›¸ãè¾¼ã¿
        .apply(PipelineTask::S3Uploader.new(upload_file_name)) # 4. S3ã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰
pipeline.run

ã“ã®ã‚ˆã†ã«ã€MedPipe ã‚’ä½¿ã†ã“ã¨ã§å‡¦ç†ã®æµã‚ŒãŒæ˜Žç¢ºã«ãªã‚Šã€å¯èªæ€§ã‚’å‘ä¸Šã•ã›ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

ãã‚Œã«åŠ ãˆã¦ä»¥ä¸‹ã®ã‚ˆã†ãªæ©Ÿèƒ½ã‚’å®¹æ˜“ã«å®Ÿè£…ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

ä¸¦åˆ—å‡¦ç†
ã‚¯ã‚¨ãƒªæœ€é©åŒ–ã®ãŸã‚ã®ã€in_batches ã‚’ç”¨ã„ãªã„ç‹¬è‡ªãƒ‡ãƒ¼ã‚¿å–å¾—å‡¦ç†
ä»¶æ•°ã®ã‚«ã‚¦ãƒ³ãƒˆ
ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã™ã‚‹ãƒ•ã‚¡ã‚¤ãƒ«ã‚µã‚¤ã‚ºã®ä¿å˜

Ruby ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã«ã¨ã£ã¦ã¯ Dataflow ç‰ã®å¤§è¦æ¨¡ãƒ‡ãƒ¼ã‚¿å‡¦ç†ãƒ„ãƒ¼ãƒ«ã¨æ¯”ã¹ã¦å¦ç¿’ã‚³ã‚¹ãƒˆãŒä½Žã„ãŸã‚ã€å°Žå…¥ã‚’æ¯”è¼ƒçš„å®¹æ˜“ã«è¡Œã†ã“ã¨ãŒã§ãã¾ã™ã€‚

ã‚³ãƒ³ã‚»ãƒ—ãƒˆ

MedPipe ã§ã¯ Pipeline ã« PipelineTask ã‚’ç™»éŒ²ã—ã€ãã‚Œã‚’é †ç•ªã«å®Ÿè¡Œã—ã¾ã™ã€‚
PipelineTask ã¯ã‚„ã‚ŠãŸã„ã“ã¨ãã®ã‚‚ã®ã§ã‚ã‚‹ãŸã‚ã€ç‹¬è‡ªã§å®Ÿè£…ã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚
PipelineTask ãŒå®Ÿè£…ã™ã‚‹å¿…è¦ã®ã‚ã‚‹ãƒ¡ã‚½ãƒƒãƒ‰ã¯ call ã®ã¿ã§éžå¸¸ã«ã‚·ãƒ³ãƒ—ãƒ«ã§ã™ã€‚

def call(context, prev_result)
  yield "æ¬¡ã®Taskã®ç¬¬äºŒå¼•æ•°ã«æ¸¡ã™å€¤"
end

ãŸã ã—ã€å¤§é‡ã®ãƒ‡ãƒ¼ã‚¿ã‚’æ‰±ã†éš›ã«ã¯å…¨éƒ¨ã®ãƒ‡ãƒ¼ã‚¿ã‚’ãƒ¡ãƒ¢ãƒªã«ã®ã›ã¦æ¬¡ã® Task ã«æ¸¡ã™ã‚ã‘ã«ã¯ã„ãã¾ã›ã‚“ã€‚
ãã“ã§ã€åŸºæœ¬çš„ã«ã¯ Enumerable::Lazy ã‚’å¾Œç¶š Task ã«æ¸¡ã—ã¾ã™ã€‚
(lazy ã§ Enumerable ã‚’ Enumerable::Lazy ã«å¤‰æ›ã§ãã¾ã™)

ä¾‹

def call(_context, _)
  yield HogeLog.find_each.lazy
end

å¾Œç¶š Task ã¯ Enumerable::Lazy ã‚’å—ã‘å–ã‚Šã€map ã§å‡¦ç†ã‚’æŒŸã‚€ã“ã¨ã§ Enumerable::Lazy ã‚’ç¶æŒã§ãã¾ã™ã€‚

  def call(_context, records)
    yield records.map { |record| format_line(record) }
  end

PipelineTask ã®ä»–ã«ã‚‚ PipelineTask ã‚’ Pipeline ã«ç™»éŒ²ã™ã‚‹å‡¦ç†ãªã©ä½¿ã†æº–å‚™ã¯å¿…è¦ã§ã™ã€‚

Usageã¨ã‚µãƒ³ãƒ—ãƒ«ã‚’å‚è€ƒã«ã—ã¦ãã ã•ã„ã€‚

DB ã‹ã‚‰ã®ãƒ‡ãƒ¼ã‚¿å–å¾—æ–¹æ³•

å®Ÿå‹™ã§ find_each ã‚’ä½¿ã†å ´åˆã«ã¯ 2 ã¤ã®å•é¡ŒãŒã‚ã‚Šã¾ã—ãŸã€‚

ActiveRecord ã®ãƒ¡ãƒ¢ãƒªä½¿ç”¨é‡ãŒå¤šã„
ã‚¯ã‚¨ãƒªãŒæœ€é©åŒ–ã•ã‚Œãªã„

1 ã«é–¢ã—ã¦ã¯ in_batches + pluck ã‚’ä½¿ã†ã“ã¨ã§è§£æ±ºã§ãã¾ã™ãŒã€2 ã«é–¢ã—ã¦ã¯è§£æ±ºã§ãã¾ã›ã‚“ã€‚
å‚è€ƒ: Railsã§in_batchesä½¿ã†ã¨ã¨ã¦ã‚‚é…ã„

ã“ã‚Œã‚’è§£æ±ºã™ã‚‹ãŸã‚ã«ã€MedPipe ã§ã¯ BatchReader ã¨ã„ã†ã‚¯ãƒ©ã‚¹ã‚’é–‹ç™ºã—ã¾ã—ãŸã€‚

ä½¿ç”¨ä¾‹:

  def call(_context, _)
    yield MedPipe::BatchReader.new(
      HogeLog,
      scope: HogeLog.where(created_at: @target_date.all_day),
      pluck_columns:,
      batch_size: BATCH_SIZE
    ).each.lazy
  end

ã“ã‚Œã«ã‚ˆã£ã¦ find_each ã®ã‚ˆã†ã«1ä»¶ãšã¤ã€pluck_columns ã§ pluck ã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã‚’å¾Œç¶š Task ã«æ¸¡ã™ã“ã¨ãŒã§ãã¾ã™ã€‚

ãƒ—ãƒãƒ•ã‚¡ã‚¤ãƒªãƒ³ã‚°ã®ä»•æ–¹

å®Ÿå‹™ã§ã¯ memory_profiler ã‚’ç”¨ã„ã¦ã€ä»¥ä¸‹ã®ã‚ˆã†ãªã‚³ãƒ¼ãƒ‰ã§ãƒ—ãƒãƒ•ã‚¡ã‚¤ãƒªãƒ³ã‚°ã‚’è¡Œã„ã¾ã—ãŸã€‚ â€» åŸ·ç†ã«ã‚ãŸã‚Šä¸€éƒ¨ä¿®æ£ã—ã¦ã„ã¾ã™ã€‚

module Profiler
  class << self
...
    def report(&block)
      start_time = Time.current
      result = MemoryProfiler.report(&block)
      elapsed_time = Time.current - start_time

      puts "\n\n===== Profiler Report ====="
      puts "Total allocated: #{bytes_to_mb(result.total_allocated_memsize)} MB (#{result.total_allocated} objects)"
      puts "Total retained: #{bytes_to_mb(result.total_retained_memsize)} MB (#{result.total_retained} objects)"
      puts "Elapsed time: #{elapsed_time.round(2)} sec"
    end
...
    private

...
    # bytes to MB å°æ•°ç‚¹ç¬¬äºŒä½ã¾ã§
    def bytes_to_mb(bytes)
      (bytes / 1024.0 / 1024.0).round(2)
    end
  end
end

class PipelineTask::Profiler
  def call(_context, input)
    Profiler.report do
      # Lazy ã®å ´åˆã€æ¸¬å®šã™ã‚‹ãŸã‚ã«ç™ºç«ã™ã‚‹
      input.force if input.is_a?(Enumerator::Lazy)

      yield(input)
    end
  end
end

pipeline.apply(PipelineTask::Profiler.new)

æ—¢å˜ã®ã‚¹ã‚¯ãƒªãƒ—ãƒˆã‚’ä¿®æ£ã™ã‚‹ã“ã¨ãªãã€ãƒ—ãƒãƒ•ã‚¡ã‚¤ãƒªãƒ³ã‚°ã‚’è¡Œã†ã“ã¨ãŒã§ãã¾ã™ã€‚

ãŠã‚ã‚Šã«

æœ¬è¨˜äº‹ã§ã¯ã€MedPipe ã®ç´¹ä»‹ã‚’è¡Œã„ã¾ã—ãŸã€‚æœ¬ gem ã¯å¼Šç¤¾åˆã®ã‚ªãƒ¼ãƒ—ãƒ³ã‚½ãƒ¼ã‚¹ã® gem ã§ã™ã€‚
æ™®æ®µæ§˜ã€…ãª OSS ã®ãŠä¸–è©±ã«ãªã£ã¦ã„ã‚‹ãŸã‚ã€æä¾›ã™ã‚‹å´ã¨ã—ã¦æ¥ç•Œã«è²¢çŒ®ã§ãã‚‹ã“ã¨ã‚’å¬‰ã—ãæ€ã„ã¾ã™ã€‚
OSS ã¨ã—ã¦ä¸–ã«å‡ºã™ã“ã¨ã‚’è¨±å¯ã—ã¦ã„ãŸã ã„ãŸä¼šç¤¾ã‚„ä¸€ç·’ã«é–‹ç™ºã—ãŸåŒåƒšã®è¿‘è—¤ã•ã‚“(@tetetratra)ã«æ„Ÿè¬ã§ã™!
å®Ÿè£…ãŒå‚è€ƒã«ãªã£ãŸã‚Šã€ä½¿ã£ã¦ã¿ã¦ã‚ˆã‹ã£ãŸå ´åˆã¯ã€ãœã² MedPipe ã® GitHub ãƒªãƒã‚¸ãƒˆãƒªã«ã‚¹ã‚¿ãƒ¼ã‚’ã„ãŸã ã‘ã‚‹ã¨åŠ±ã¿ã«ãªã‚Šã¾ã™ã€‚

æ˜¯éžèªè€…ã«ãªã£ã¦ãã ã•ã„ï¼

ãƒ¡ãƒ‰ãƒ”ã‚¢ã§ã¯ä¸€ç·’ã«åƒãä»²é–“ã‚’å‹Ÿé›†ã—ã¦ã„ã¾ã™ã€‚ ã”å¿œå‹Ÿã‚’ãŠå¾…ã¡ã—ã¦ãŠã‚Šã¾ã™ï¼

â– å‹Ÿé›†ãƒã‚¸ã‚·ãƒ§ãƒ³ã¯ã“ã¡ã‚‰ medpeer.co.jp

â– ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ç´¹ä»‹ãƒšãƒ¼ã‚¸ã¯ã“ã¡ã‚‰ engineer.medpeer.co.jp

â– ãƒ¡ãƒ‰ãƒ”ã‚¢å…¬å¼YouTubeã€€ www.youtube.com