並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 59件

新着順 人気順

AirFlowの検索結果1 - 40 件 / 59件

AirFlowに関するエントリは59件あります。 MLOpsairflowAirflow などが関連タグです。 人気エントリには 『大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG』などがあります。
  • 大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG

    こんにちは。MA部の田島です。 弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。本記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。 バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。 開発ガイドラインについての紹介 冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。 開発ガイドラインの種類 開発ガイドラインは現在、以下の種類が存在します。 共通 Android iOS Frontend Backend Infra API Batch DB(Datab

      大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG
    • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

      ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

        データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
      • ワークフローオーケストレーション入門

        「Data Engineering Study #23 Data orchestration 特集」の発表資料です イベントページ: https://forkwell.connpass.com/event/310011/

          ワークフローオーケストレーション入門
        • データオーケストレーションツールDagsterの紹介

          データオーケストレーションとは データオーケストレーションという言葉をご存知でしょうか?日本ではまだ耳慣れない言葉ですが、data orchestrationでgoogle検索すると実に3000万件以上ヒットし、世界的には十分に市民権を得ている言葉です。Databricksではデータオーケストレーションを以下のように説明しています。 データオーケストレーションとは データオーケストレーションとは、複数のストレージからサイロ化したデータを取り出し、組み合わせて整理し、分析に利用できるようにするための自動化されたプロセスです。 このプロセスでは、レガシーシステム、クラウドベースのツール、データレイクといったあらゆるデータセンターが接続されます。データは標準形式に変換されるため、理解しやすく、容易に意思決定に利用できます。 オーケストレーションとは、コンピュータシステム、アプリケーション、および

            データオーケストレーションツールDagsterの紹介
          • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

            AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、本稿では本番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と本番環境に大きなギャップを抱えている クラウド含む本番環境でのモデルのホスティングが考慮されないローカルでの作業 本番のデータボリュームやス

              小さく始めて大きく育てるMLOps2020 | | AI tech studio
            • 近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG

              はじめに こんにちは。ZOZO研究所のshikajiroです。主に研究所のバックエンド全般を担当しています。ZOZOでは2019年夏にAI技術を活用した「類似アイテム検索機能」をリリースしました。商品画像に似た別の商品を検索する機能で、 画像検索 と言った方が分かりやすいかもしれません。MLの開発にはChainer, CuPy, TensorFlow, GPU, TPU, Annoy、バックエンドの開発にはGCP, Kubernetes, Docker, Flask, Terraform, Airflowなど様々な技術を活用しています。今回は私が担当した「近似最近傍探索Indexを作るワークフロー」のお話です。 corp.zozo.com 目次 はじめに 目次 画像検索の全体像説明 Workflow Develop Application 推論APIの流れ 近似最近傍探索とAnnoy 近似

                近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG
              • Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita

                はじめに ワークフローを作成、実行、監視するためのプラットフォーム「Airflow」が、近年人気を集めていて、多くの企業に利用されています。Airflow Summit 2022 のようなグローバルイベントも開催されるようになり、世界中から2000人以上のコントリビュータ(私もその1人)が貢献しているアツいプロジェクトです。 この記事で Airflow を使う意味と主要コンセプトを説明します。最後に、100行未満で実装できる本格的なデータパイプラインの実例をお見せしたいと思います。 Airflowとは 概要 Airflowは ワークフロー を作成、実行、監視するためのプラットフォームです。ここで言う「ワークフロー」は、依存関係にある複数の タスク を、下図のように繋いだ形で、パイプラインとして実行していくものと思ってください。 Airflowを使うと、より早く、よりロバストなワークフローが

                  Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita
                • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

                  JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

                    データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
                  • 次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ

                    ※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。 導入後の状態 Prefect導入後は、以下の構成となりました。 ポイントは以下の点です。 ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ 従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい

                      次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ
                    • 新卒がMLOpsに挑戦していく話 - MicroAd Developers Blog

                      システム開発本部のデータサイエンスユニットに所属している19新卒の豊原です。 巷で結構耳にするMLOpsですが、結構苦労していらっしゃる組織も多いと考えます。 今回の記事では、マイクロアドで挑戦するMLOpsについての概要と、その挑戦について解説します。 機械学習システムが抱える根本的な問題 私たちの思うMLOpsとは CEという概念 レコメンドシステムが抱える根本的な性質 マイクロアドが作るシステムの現状 MLOpsで実現すること 技術的詳細 Airflowを用いて学習を同時並行で回す MLflowを用いて学習結果を保存する 機械学習エンジニア絶賛採用中 機械学習システムを構築する上で、他の通常のシステムと決定的に違うことがあります。 それはシステムの劣化の早さ*1と問題調査という点にあります。 機械学習システムが抱える根本的な問題 機械学習システムが抱える根本的な性質として、データを基

                        新卒がMLOpsに挑戦していく話 - MicroAd Developers Blog
                      • 機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog

                        電通デジタルでデータサイエンティストを務める吉田です。 本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。 データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。 一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。 簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー

                          機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog
                        • Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services

                          AWS News Blog Introducing Amazon Managed Workflows for Apache Airflow (MWAA) As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and data engineers use Apache Airflow, a platform created by the commun

                            Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services
                          • PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita

                            PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineXPythonワークフローデータサイエンスPipelineETL この記事では、Open-sourceのPipeline/Workflow開発用PythonパッケージのAirflow, Luigi, Gokart, Metaflow, Kedro, PipelineXを比較します。 この記事では、"Pipeline"、"Workflow"、"DAG"の単語はほぼ同じ意味で使用しています。 要約 👍: 良い 👍👍: より良い 2015年にAirbnb社からリリースされました。 Airflowは、Pythonコード(独立したPythonモジュール)でDAGを定義します。 (オプションとして、非公式の dag-factory 等を使用して、YAML

                              PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita
                            • SPOFとはもう呼ばせない!Airflow 2.0で生まれ変わったHAスケジューラー|Dentsu Digital Tech Blog

                              電通デジタルでSREをしている神田です。 この記事は電通デジタルアドベントカレンダーの4日目の記事です。前回の記事は「Reactアプリケーション内でGoogle Analytics計測をする際、react-gaを使わず、gtag.jsを利用した方法とその選択理由」でした。 電通デジタルのいくつかの開発プロジェクトでは、データ処理のためのワークフローエンジンとしてAirflowが採用されています。 この記事では、Airflow 2.0で改善された機能の1つである、スケジューラーのHA(High Availability)対応について解説します。 Airflow 2.0で提供される機能について詳しく知りたい方はAirflow 2.0 Planningを参照してください。 そもそも、スケジューラーって何をしているの?スケジューラーは、DAGやタスクを監視し依存関係をもとに実行可能なTaskIns

                                SPOFとはもう呼ばせない!Airflow 2.0で生まれ変わったHAスケジューラー|Dentsu Digital Tech Blog
                              • Cloud Composerによるデータバリデーション ~常に正確なデータ集計を実現するために~ - ZOZO TECH BLOG

                                こんにちは。ECプラットフォーム部データエンジニアの遠藤です。現在、私は推薦基盤チームに所属して、データ集計基盤の運用やDMP・広告まわりのデータエンジニアリングなどに従事しています。 以前、私たちのチームではクエリ管理にLookerを導入することで、データガバナンスを効かせたデータ集計基盤を実現しました。詳細は、以前紹介したデータ集計基盤については以下の過去記事をご覧ください。 techblog.zozo.com 本記事では、データ集計基盤に「データバリデーション」の機能を加えて常に正確なデータ集計を行えるように改良する手段をお伝えします。 データバリデーションとは バリデーション導入後のデータ集計基盤 ジョブネット構築 テンプレートによる効率的なDAGの作成 DAG間の依存関係の設定方法 バリデーションDAGのタスク構成 まとめ データバリデーションとは データバリデーションとはデータ

                                  Cloud Composerによるデータバリデーション ~常に正確なデータ集計を実現するために~ - ZOZO TECH BLOG
                                • Airflow 2.0 でDAG定義をよりシンプルに! TaskFlow APIの紹介|Dentsu Digital Tech Blog

                                  電通デジタルでバックエンド開発をしている松田です。 前回の記事は「広告出稿プランニング業務におけるセグメントのマッピングと表示改善」でした。 Dentsu Digital Tech Advent Calendar 2020 9 日目の記事になります。この記事ではAirflow 2.0で追加された機能の一つであるTaskFlow APIについて、PythonOperatorを例としたDAG定義を中心に1.10.xとの比較を交え紹介します。 弊社のAdvent Calendarでは、Airflow 2.0に関するものはこれまでにHAスケジューラの記事がありました。Airflow 2.0で提供される新しい機能について詳しく知りたい場合はAirflow Planningを参照ください。 TaskFlow APIとは?TaskFlow APIとはざっくり言うと、タスク間の暗黙的なデータ連携を明示的に

                                    Airflow 2.0 でDAG定義をよりシンプルに! TaskFlow APIの紹介|Dentsu Digital Tech Blog
                                  • モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり

                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で機械学習エンジニアをしている芹沢です。ヤフー全社で使われているレコメンドプラットフォームを担当するプロジェクトに所属し、ログ収集・学習ジョブの開発/運用やMLOpsに関連する業務を行っています。 本記事ではそのMLOps業務の中からモデリング業務の効率化の取り組み事例を紹介します。新しいモデルを本番採用するまでにはA/Bテストの準備などをする必要がありますが、それにかかる工数が多いことが課題となっていました。そこで、検証段階からA/Bテスト実施までの実装の負担を軽減し、より早く安全にモデル改善の試行錯誤を行える仕組みを提供しました。 ※ レコメンドシステムの開発はプライバシーポリシーの範囲内で取得し

                                      モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり
                                    • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

                                      こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

                                        Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
                                      • コードリーディングでAirflowの仕組みを理解する

                                        こんにちは。Nowcastでエンジニアをしている片山(@fozzhey)です。 NowcastではワークフローマネジメントツールとしてAirflowを採用しています。 Airflowは日本でもよく採用されており、実際に活用されている方も多いと思います。 しかし、Airflowを使うことはできるけど、実際にどういう仕組みで動いているのかは分からない方が多いのではないでしょうか? せっかくPythonで書かれているのに、Airflowのコードを読まないのはもったいない! ということで、この記事ではAirflowのコードリーディングを行いたいと思います。 なるべくコードやGithubのリンクを貼っていますが、手元のエディターでAirflowのリポジトリを開きながら読んでいただくとより理解が深まると思います。 コードリーディングの題材題材とするDAGとタスクこの記事ではAirflowが提供するサン

                                          コードリーディングでAirflowの仕組みを理解する
                                        • AirflowとKubernetesで機械学習バッチジョブの運用負荷を低減した話

                                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でYahoo!ショッピングやPayPayモールのおすすめ機能(レコメンドシステム)の開発を担当している正沢です。 この記事では、別々に作られた複数の機械学習のバッチジョブ管理システムをApache Airflow(以降、Airflowと記載します)に集約して、運用負荷を低減した事例を簡単なシステム構成とともに紹介したいと思います。 ※ レコメンドシステムの開発ではプライバシーポリシーの範囲内で取得したデータを用いて行っています Yahoo!ショッピングのレコメンドとは? Yahoo!ショッピングやPayPayモールには、ユーザーがなにか商品を見ている時に、他にも興味を持ってもらえそうな商品を推薦するレ

                                            AirflowとKubernetesで機械学習バッチジョブの運用負荷を低減した話
                                          • Data EngineeringとKubernetes Executorの話 | メルカリエンジニアリング

                                            Cityカラムが英語表記へ統一 Temperatureカラムは摂氏(℃)へ統一 Dateのカラムは、タイムゾーンをUTCに固定し、YYYY-MM-DDフォーマットへ こうしてDataが整理されてInformationになることで、「最高気温を比較すると、UTC 11月15日の時点ではPalo Altoの方が高かったが、12月5日の時点では東京の方が高かった」といった事実を見ることができるようになります。このInformationから導き出される傾向や規則性を導出されたものが、DIKWピラミッドにおけるKnowledgeになります。そして頂点であるWisdomは、導き出されたKnowledgeに基づいて人により下される判断のことそのものを示します。 Data Engineeringの仕事は、このDataを過不足無く蓄えること、DataからInformationへの変換・蓄積する作業がメインと

                                              Data EngineeringとKubernetes Executorの話 | メルカリエンジニアリング
                                            • Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ

                                              こんにちは。 今年4月にエニグモに入社したデータエンジニアの谷元です。 この記事は Enigmo Advent Calendar 2020 の20日目の記事です。 目次 はじめに そもそも同期処理とは? Airflowによる同期処理 検証時のコード サンプルをAirflow画面で見ると? 同期遅延なし時のAirflowログ 同期遅延あり時のAirflowログ 同期タイムアウト時のAirflowログ 所感 最後に はじめに コロナ禍の中、皆さんどのようにお過ごしでしょうか。 私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、

                                                Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ
                                              • AirflowのTips 11選 | フューチャー技術ブログ

                                                概要Airflow 利用にあたって知っておいたほうが良いんじゃないかなと思う情報をまとめました。いわゆるハマりどころです。 Airflow 自体の基本的な説明(用語,DAG 定義方法,etc..) は省略しています。 基礎参照先 公式 Tutorial Dockerfile バージョン Airflow 1.10.4 Postgres 10.7 Tips 11 選 1. 日時 2. リトライ 3. start_date の変更ができない 4. 開始日時を過去日時にすると過去ジョブが自動実行される 5. context の活用 6. Macros 7. Task 間で値を受け渡す方法 8. dags ディレクトリ以下のディレクトリの切り方 9. UI の表示が UTC 固定 10. Web UI 上からジョブのパラメータを渡せない 11. DAG/Task の同時実行数制御 1. 日時Airf

                                                  AirflowのTips 11選 | フューチャー技術ブログ
                                                • Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO

                                                  こんにちは、みかみです。 Python で実装されている Job 管理ツール Apache Airflow。 WebUI のJob 管理画面で直感的に分かりやすい操作が可能で、エラー発生時などの通知機能もあり、スケールアウトにも対応していて複数サーバで分散実行もできます。 Python でバッチ Job 開発経験のある方には多分おなじみの Airflow、私も存在は知っていましたが、実際使ったことはありませんでした。 やりたいこと Airflow の構成(アーキテクチャ)を知りたい Airflow の使い方(Job 作成&実行方法)を知りたい Airflow のアーキテクチャ Airflowは、 管理画面表示部の Webserver と、Job実行のスケジュール管理部の Scheduler 、Job実行部の Worker(Executer) から成り立っているようです。 各モジュールは管理

                                                    Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO
                                                  • Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG

                                                    こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。 この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。 全体構成 データ処理基盤の全体構成は次のようになっています。 以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。 以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h

                                                      Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
                                                    • Airflow's Problem

                                                      I wrote an entire blog post trying to pin down why I dislike Airflow. But despite my rationalizations, it came out like a break-up letter — just way too personal: Dear Airflow, I tried to make it work, I really did. But you are too old, your abstractions are clunky, and I think you’re ugly. It’s over between us. Sincerely, Stephen Which would have been fine, except I knew exactly how Airflow would

                                                        Airflow's Problem
                                                      • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

                                                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

                                                          【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証
                                                        • AWSのマネージドAirflow、Amazon Managed Workflow for Apache Airflow(MWAA)が登場! | DevelopersIO

                                                          AWSのマネージドAirflow、Amazon Managed Workflow for Apache Airflow(MWAA)が登場! こんにちは。サービスグループの武田です。ETL処理などのワークフローを実行するツールとして人気のあるApache AirflowがAWSのマネージドサービスとして登場しました! こんにちは。サービスグループの武田です。 本日朝イチで飛び込んできたニュースをお届けします。ETL処理などのワークフローを実行するツールとして人気のあるApache AirflowがAWSのマネージドサービスとして登場しました!GCPにはCloud Composerというマネージドサービスがあったのですが、AWSには存在しませんでした。re:Invent 2019で発表されないかな、と昨年も期待していたのですが、なんと今年のre:Invent 2020を目前にしてリリースされま

                                                            AWSのマネージドAirflow、Amazon Managed Workflow for Apache Airflow(MWAA)が登場! | DevelopersIO
                                                          • ビッグデータ活用時のワークフローの大切さ ZOZO研究所のエンジニアが感じた次元が違う300万画像の処理

                                                            ZOZO Technologies Meetup は、「ZOZOテクノロジーズの大規模データ活用に興味のある方」を対象としたイベントです。ZOZO研究所の渡辺氏からは大規模データを対象とした画像検索システムのワークフローについての事例を紹介しました。後半は画像検索のワークフローの流れについて。 画像検索のワークフローの流れ 渡辺慎二郎氏:というところの話になってきて、これがワークフロー、それを毎日のように準備するという仕組みになります。先ほど見せた図で言うと、この部分ですね。 このワークフロー、今回ではComposerというGKEのマネージドサービスを使っています。これの中身、具体的な仕組みは置いておいて、流れをご紹介します。 まずBigQueryから、本日今時点で有効になっている、使える、発売になっている商品情報をダーッと取ってきます。だいたいこれが300万画像ぐらい。その日によって違っ

                                                              ビッグデータ活用時のワークフローの大切さ ZOZO研究所のエンジニアが感じた次元が違う300万画像の処理
                                                            • Amazon Managed Workflows for Apache Airflow (MWAA) でのAiflow v2系への移行記録 - KAYAC engineers' blog

                                                              こんにちは。技術部の池田です。 この記事では、Amazon Managed Workflows for Apache Airflow (MWAA) のAirflow v2系への移行を行いましたので、その時の話をしたいとお思います。 内容としては、主に以下となります。 MWAA では v1.10.12の環境を直接 v2.0.2に移行できないぞ! ローカルでDAGのテストをしていると互換性チェックは楽だぞ! 新しいv2.0.2の環境を作るときには、最初はrequirements.txtやDAGを空っぽにしておくと良いぞ! ConnectionsとVariablesの新環境への移植は頑張るんだぞ!!! 背景 MWAAでもAirflow v2系のサポートが始まりました。 先日、Airflowの勉強会に参加して初めて知ったのですが、Airflow v1系は2021/06月末でEOLです。 早く移行を

                                                                Amazon Managed Workflows for Apache Airflow (MWAA) でのAiflow v2系への移行記録 - KAYAC engineers' blog
                                                              • 世の人もすなる Airflow というものを、してみんとてするなり | 株式会社オープンストリーム

                                                                みなさんこんにちは。技術創発推進室の高岡です。 気の早い桜は咲き始めたようですが、そろそろ年度末、みなさまいかがお過ごしでしょうか。 このところの私は、これまでの AI 関連の開発を振り返って、実験管理、結構面倒くさかったな、という反省をしているところです。機械学習系の案件に関わっている皆さんには、ご同意いただけるんじゃないでしょうか。 ■実験管理は必須。でも面倒! 機械学習モデル開発のワークフローでは、次のような作業がよく発生します。 あるデータと設定で、機械学習モデルを訓練して、パラメータを得る訓練済みの機械学習モデルの性能を調べて、記録するモデル同士の性能を比較する こうした「条件設定と訓練、性能測定、比較」のサイクルを「実験」と呼び、実験を繰り返しながら、より良いモデルを模索するわけです。経験者の皆さんにはおなじみですね。 このとき「このモデルはどういう条件の下で得られたか」「それ

                                                                  世の人もすなる Airflow というものを、してみんとてするなり | 株式会社オープンストリーム
                                                                • GitHub - kestra-io/kestra: Infinitely scalable, event-driven, language-agnostic orchestration and scheduling platform to manage millions of workflows declaratively in code.

                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                    GitHub - kestra-io/kestra: Infinitely scalable, event-driven, language-agnostic orchestration and scheduling platform to manage millions of workflows declaratively in code.
                                                                  • バッチシステム刷新にあたって技術選定をLOGLYはどう行ったのか | ログリー株式会社

                                                                    はじめに こんにちは!LOGLY 開発グループでサーバサイド開発を担当している細野です。 日々主にRuby on Railsや Perl を用いた開発を行っていますが、昨年末あたりから4月までインフラ周りをメインで担当していたため、最近はTerraformやYAMLの記述量が多めになっています。 また昨年子供ができ、子育てに忙しい毎日を送っています。その中でいかにテクノロジーのキャッチアップを行うか、時間の効率的な使い方を絶賛模索中です。 2020年1月〜3月にかけて、当社開発チームメンバー6人で新バッチシステムを構築しました。 そこでせっかくの機会なので、今回は現状の課題と、課題を踏まえた新システムの技術選定過程をまとめました。 長くなったら申し訳ありませんが、お付き合いいただければ幸いです。 LOGLYバッチのいま バッチ実行はcronで管理しています(約40件)。 $ crontab

                                                                      バッチシステム刷新にあたって技術選定をLOGLYはどう行ったのか | ログリー株式会社
                                                                    • Airflow の流れを制す - kencharosの日記

                                                                      最近バックグラウンドのジョブスケジューラとして使用しているのが、 Apache Airflow だ。 https://airflow.apache.org/ Pythonで複数ジョブ(Operator)の依存関係をDAGとしてDSL的に書けるのは魅力的だが、 一方でスケジューラーとしては、UI付きのcronだと思っていたら相当なハマりどころを感じたので、 同じくハマりそうな人や将来の自分に向けてAirfronのスケジューリングの知見を残しておきたいというのが趣旨。 TL;DR 以下の通り、ちゃんと公式でも書いてあるが、正直なところ自分でやってみないとわかりづらく、 ちゃんと補足してある資料があったので紹介しておく。 自分で試しつつ、以下の資料と照らし合わせて自分の認識が一致したことを再確認した。 airflow.apache.org towardsdatascience.com Airfl

                                                                        Airflow の流れを制す - kencharosの日記
                                                                      • サウナで分析基盤を構築し、漁業のサステナビリティを向上させる取り組みを考えた話 - Lighthouse Developers Blog

                                                                        こんにちは、株式会社ライトハウスでエンジニアをしている平塚です。 今回はサウナで分析基盤を作った話を致します。 なぜサウナなのか 休憩時間に本気のリフレッシュできるからです。 逆に長時間働き過ぎると眠くなってくるので(個人の主観)夢中になってやりすぎ防止出来る面は 良いかなと思っています。 分析基盤を作成した場所 今回利用させて頂きました施設は両国湯屋江戸遊 です。 両国の江戸遊を選択した理由は複数あるのですが、以下の通りです。 駅近(両国駅徒歩5分) 提携駐車場有り 湯船ワークスペース サウナ会議室(ホワイトボード&防音) 会議室の利用 会議室は当日に伺うと埋まっている事が多いです、 事前予約が可能なので予約することをお勧めします。 サウナの種類 男湯には以下2種類のサウナが用意されています。 フィンランドサウナ(90度前後) 中温サウナ(75度前後) 水風呂は1つあり、18度くらいに設

                                                                          サウナで分析基盤を構築し、漁業のサステナビリティを向上させる取り組みを考えた話 - Lighthouse Developers Blog
                                                                        • [レポート] Amazon MWAA と AWS Step Functions を比べてみた #AWSreInvent #API307 | DevelopersIO

                                                                          [レポート] Amazon MWAA と AWS Step Functions を比べてみた #AWSreInvent #API307 こんにちは、muroです。AWS事業本部 サービス開発室でopswitchの開発・運用を担当しています。opswitchは今年の1月にApache Airflowベースのアーキテクチャから、AWS Step Functionsに移行しました。 今回 re:Invent で Amazon MWAA と AWS Step Functions のそれぞれの長所短所を学ぶセッションがあったので、自身の理解度を確認するために受講してきました。 セッションの概要 タイトル Comparing Amazon MWAA and AWS Step Functions 概要 Organizations looking to orchestrate ETL data pipel

                                                                            [レポート] Amazon MWAA と AWS Step Functions を比べてみた #AWSreInvent #API307 | DevelopersIO
                                                                          • Apache Airflow : 10 rules to make it work ( scale )

                                                                            if you are not careful your shortcuts will cost you a lot afterwardsAirflow permissive approach will let you schedule any custom code (jobs) but you will create a spaghetti stack if you do not follow very strict SEPARATION OF CONCERN design between the airflow dags and your jobs. Airflow allow you to run your jobs without isolation with the framework itselfAt the origin Airflow was sort of a “supe

                                                                              Apache Airflow : 10 rules to make it work ( scale )
                                                                            • Airflowの使い勝手と他のワークフローエンジンの紹介(2020年) - Qiita

                                                                              この記事でやること ワークフローエンジンであるAirflowの使い方のポイントを書きます 私はGCPのCloud Composerで使っています ※ワークフローエンジンについては以前こちらに書きました https://qiita.com/elyunim26/items/15db924e4c9833e5050a MWAA来ましたね ちょうど、AWSのフルマネージドAirflow(MWAA)も来ましたね 使い始めるかたもいらっしゃるのではないでしょうか https://dev.classmethod.jp/articles/amazon-managed-workflows-for-apache-airflow-mwaa-ga/ AWS MWAAの利用料としてはGCPのCloud Composerと似たようなレンジで400-600$/月くらいはかかってしまいそうです https://aws.am

                                                                                Airflowの使い勝手と他のワークフローエンジンの紹介(2020年) - Qiita
                                                                              • 時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)

                                                                                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータサイエンティストをしております、田辺 広樹(ざるご)です。 時系列ビッグデータに対しては、オフライン評価の実施にあたって、学習時とは異なる操作を行う必要があります。弊チームでは従来、これらに対して、書き捨ての集計クエリ、Python スクリプトを作成することで対応を行っていました。 本記事では、これらの操作を自動化し、オフライン評価のための工数を削減した取り組みをご紹介します。 前提: Yahoo!広告における機械学習パイプライン Yahoo!広告では、時系列ビッグデータを用いて、ヤフーの AI プラットフォーム上で広告配信コンバージョン率(CVR)予測モデルを学習し、広告配信に活用しています。

                                                                                  時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)
                                                                                • Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ

                                                                                  サービス比較各サービス別に、Good/Challenge に分けて記載しています。 GoodMWAA Pythonで実現できることは基本すべて実装可能で、実装の制約が少ない UI が充実しており、実行履歴、ログ、実行時間等の様々な情報を参照することが可能 UI 上でワークフローの任意の位置からリトライ可能 各種クラウドSDK/OSS API を呼び出しを簡易化するための provider がサードパーティ提供されている Providers packages reference — apache-airflow-providers Documentation provider を pip でインストール後、各 provider に実装されている operator 関数を呼び出すことで実現可能 Step Functions AWS サービスの呼び出しをローコード(パラメータ指定程度)で実現可能

                                                                                    Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ

                                                                                  新着記事