pipelineに関するエントリは98件あります。 CIgithub開発 などが関連タグです。 人気エントリには 『【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します』などがあります。
  • 【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します

    ―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私

    • 【CICD2021】デプロイメントパイプラインの原理原則を再確認する / Confirm Deployment Pipeline Principle

      • GitHub - adobe/frontend-regression-validator: Visual regression tool used to compare baseline and updated instances of a website in a deployment pipeline.

        FRED is an opensource visual regression tool used to compare two instances of a website. FRED is responsible for automatic visual regression testing, with the purpose of ensuring that functionality is not broken by comparing a current(baseline) and an updated version of a website. FRED compares the following: Console and network logs Visual: screenshot analysis Visual AI: screenshot analysis using

        • 信頼性を支えるテレメトリーパイプラインの構築 / Building Telemetry Pipeline with OpenTelemetry

          • Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog

            地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 Hugging Faceってご存じですか? AIを使用したプログラム・スクリプトを作る際、ゼロから起こす場合は以下のような部分を作り込んだり、Githubなどのリポジトリサイトからソースを入手したりする必要があったりします。 AIモデル トレーニングのためのロジック 評価・テストのためのロジック データローダ トレーニング・評価データを読み込むためのフォーマット、読み込み処理・変換処理など チェックポイントの書き出し Hugging Faceというサイトは、学習済みモデルやデータセッ

            • AWS CDKを用いたセキュアなCI/CDパイプラインの構築 / Build a secure CI/CD pipeline using AWS CDK

              JAWS-UG CDK支部 #16 ~CDK Conference 2024 Extra~ https://jawsug-cdk.connpass.com/event/328676/

              • GitHub - cumulo-autumn/StreamDiffusion: StreamDiffusion: A Pipeline-Level Solution for Real-Time Interactive Generation

                • How to build a CI/CD pipeline for container vulnerability scanning with Trivy and AWS Security Hub | Amazon Web Services

                  AWS Security Blog How to build a CI/CD pipeline for container vulnerability scanning with Trivy and AWS Security Hub In this post, I’ll show you how to build a continuous integration and continuous delivery (CI/CD) pipeline using AWS Developer Tools, as well as Aqua Security‘s open source container vulnerability scanner, Trivy. You’ll build two Docker images, one with vulnerabilities and one witho

                  • Attacking and Securing CI/CD Pipeline

                    ATT&CK-like Threat Matrix for CI/CD Pipeline on GitHub: https://github.com/rung/threat-matrix-cicd -------- Place: CODE BLUE 2021 Op…

                    • レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog

                      Analytics Infra チームの@hizaです。 この記事ではメルカリの分析環境を改善した事例を紹介します。 今回は「運用に課題があってリプレースしたいが、業務への影響が大きすぎてリプレースできない」そんな板挟みな状況を解決した事例です。 また、その紹介を通じてメルカリのData Architectがどんな仕事をしているのかその一部を感じてもらえる記事をめざしました。 メルカリのデータ活用の現状 メルカリには様々な職種でデータを活用する文化があります。 AnalystやML Engineerの他にも、PdMやCustomer Supportなども業務にデータを活用しています。結果として社内のBigQueryユーザー数は月間800名を超えるほどになりました。 こういった環境ではデータが良く整備されている事が事業の成果に大きく影響しえます。例えば、使いやすいDWHがあれば多数の社員の業

                      • ML Pipeline for Kaggleのススメ - 重み元帥によるねこにっき

                        はじめに Bengali.AI Handwritten Grapheme ClassificationというKaggleの画像コンペに参加しました. ベンガル語の書記素(grapheme)が1つ描かれた画像から,その書記素がどのようなクラスに属するかを分類する問題設定で,簡単に言えば少し難しいmnistです. 順位が察し*1だったので解法については差し控えますが,円滑にモデルを生成するためにPipelineを組みました. 「せっかくだから次回以降のコンペでも使えるように抽象的に書こう!!」というモチベーションのもと生まれたスパゲッティ🍝は以下の通りです. github.com この記事では,自戒を込めて,Kaggle用途にPipelineを作成して得られた知見をまとめます. また使用FrameworkがPyTorchなので,一部PyTorchにしか当てはまらないことがあります. あくまで

                        • The Legends of Runeterra CI/CD Pipeline

                          The Legends of Runeterra CI/CD Pipeline Hi, I’m Guy Kisel, and I’m a software engineer on Legends of Runeterra’s Production Engineering: Shared Tools, Automation, and Build team (PE:STAB for short). My team is responsible for solving cross-team shared client technology issues and increasing development efficiency. We focus on the areas that empower other teams to do more and protect the team from

                          • AWSアカウント間のDynamoDBテーブルコピーをData PipelineからStep Functions + AWS Backupに変更しました - Uzabase for Engineers

                            NewsPicks SREチームのEdwin Wilsonです。 NewsPicksでは開発環境のテストデータのプロビジョニングを行うツールとしてDatarefreshというものがあります。 このツールは本番環境のデータストアから開発環境のデータストアに対してデータを同期するアプリケーションです。 対象のデータストアは以下となります。 Amazon RDS Amazon DynamoDB Amazon S3 Amazon ElastiCache 個人情報はRDSにのみに存在しており、マスク処理を行った後、同期しています。 DynamoDB ,S3, ElastiCacheには個人情報を存在しないため、開発に必要なデータをそのまま同期しています。 Datarefreshの実行は開発者がいつでもChatopsで行えます。 ChatopsでDatarefreshの実行の仕方 Chatopsで呼び

                            • Flinkによるデータプラットフォーム構築の裏話。Ingestion Pipelineの再設計とオートスケーリング

                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINE株式会社およびヤフー株式会社は、2022年11月17日・18日の2日間にわたり、技術カンファレンス「Tech-Verse 2022」をオンライン(ライブストリーミング形式)にて開催しました。特別連載企画「Tech-Verse 2022 アフターインタビュー」では、発表内容をさらに深掘りし、発表で触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「Flink@Data Platform - Ingestion Pipelineの再設計とオートスケーリング」です。 LINEのData Platform室では、Apache Flinkによるストリーミング処理パイプラインを開発・運用してい

                              • GitHub - langgenius/dify: Dify is an open-source LLM app development platform. Dify's intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototype to p

                                • sbt 1.4からのpipeline機能を試したら3割compile時間短縮された - xuwei-k's blog

                                  3割というのは、もちろんprojectの構成だったり、計測方法やその他色々によるわけですが、とにかく自分が計測した場合には3割短縮されました。114秒が80秒になりました。 pipeline機能自体の説明は最後に書きます。先に、測定方法や具体的な結果。 測定方法 travis-ci上で、他の条件を同じにして clean update test:compile を(50分制約でtimeoutするまで)ひたすら繰り返して test:compile にかかった時間(sbtが [success] 表示する)を計測、集計する JVMの暖まりを考慮して 上記のサイクルを繰り返すにあたって、sbtは起動させたまま 最初は遅くなるので、ある程度遅かった最初の8つは除いて、それ以外で平均や中央値を計算 測定に使ったのは、このblog書いてる時点でのscalazの最新master branch(7.4.x用)

                                  • GitHub - oramasearch/orama: 🌌 A complete search engine and RAG pipeline in your browser, server or edge network with support for full-text, vector, and hybrid search in less than 2kb.

                                    • U.S. had intelligence of detailed Ukrainian plan to attack Nord Stream pipeline

                                      Three months before saboteurs bombed the Nord Stream natural gas pipeline, the Biden administration learned from a close ally that the Ukrainian military had planned a covert attack on the undersea network, using a small team of divers who reported directly to the commander in chief of the Ukrainian armed forces. Details about the plan, which have not been previously reported, were collected by a

                                      • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

                                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

                                        • Optuna on Kubeflow Pipeline 分散ハイパラチューニング

                                          社内の勉強会等で発表した内容を改変したものです。 MOVの「お客様探索ナビ」にOptunaを用いたハイパーパラメータチューニングを組み込んだ経緯、実際のチューニングフロー、コードベースでの解説、実験評価について、Optunaのチュートリアルを交えつつまとめました。 タイトルに分散とありますがKFP上の話なので厳密には並列です。Read less

                                          • How America Took Out The Nord Stream Pipeline

                                            The U.S. Navy’s Diving and Salvage Center can be found in a location as obscure as its name—down what was once a country lane in rural Panama City, a now-booming resort city in the southwestern panhandle of Florida, 70 miles south of the Alabama border. The center’s complex is as nondescript as its location—a drab concrete post-World War II structure th…

                                            • NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models

                                              NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models Nemotron-4 340B, a family of models optimized for NVIDIA NeMo and NVIDIA TensorRT-LLM, includes cutting-edge instruct and reward models, and a dataset for generative AI training. NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training la

                                              • GitHub - NVIDIA/Cosmos: Cosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs. Cosmos is purpose built for physica

                                                • DVC を活用した機械学習パイプライン開発の高速化 / Using DVC to accelerate machine learning pipeline development

                                                  第8回 MLOps 勉強会 Tokyo (Online) https://mlops.connpass.com/event/211953/

                                                  • GitHub - st-tech/zr-obp: Open Bandit Pipeline: a python library for bandit algorithms and off-policy evaluation

                                                    • GitHub - PaulPauls/llama3_interpretability_sae: A complete end-to-end pipeline for LLM interpretability with sparse autoencoders (SAEs) using Llama 3.2, written in pure PyTorch and fully reproducible.

                                                      Modern LLMs encode concepts by superimposing multiple features into the same neurons and then interpeting them by taking into account the linear superposition of all neurons in a layer. This concept of giving each neuron multiple interpretable meanings they activate depending on the context of other neuron activations is called superposition. Sparse Autoencoders (SAEs) are models that are inserted

                                                      • Early Access Program for Qodana, a New Product That Brings the “Smarts” of JetBrains IDEs Into Your CI Pipeline | The IntelliJ IDEA Blog

                                                        Early Access Program IntelliJ IDEA Java News Tools Early Access Program for Qodana, a New Product That Brings the “Smarts” of JetBrains IDEs Into Your CI Pipeline JetBrains IDEs are well known for their ability to understand code. They can track declarations, check references and types, and collect possible execution paths. Thanks to all this static analysis, you are able to rename and move things

                                                        • GitHub - catchpoint/workflow-telemetry-action: Github action to collect metrics (CPU, memory, I/O, etc ...) from your workflows to help you debug and optimize your CI/CD pipeline

                                                          • A New Lawsuit Puts the Online White Supremacy Pipeline on Trial

                                                            The families of four people killed at a mass shooting in a Buffalo, New York, supermarket have filed a sweeping lawsuit against a slew of major internet companies, weapon vendors, the family of the perpetrator, and a Japanese toy company. In a lawsuit filed Friday, the families name internet giants Meta, Amazon, and Alphabet, including social media they own; smaller platforms like Reddit and Snapc

                                                            • ElasticsearchのIngest Pipelineでtext embeddingを埋め込む & サクッとKNN+BM25のHybrid Searchを試せるリポジトリを作った - ときどき起きる

                                                              本記事は情報検索・検索技術 Advent Calendar 2022の4日目の記事です。 こんにちは、pakioです。 先日のElasticON Tokyoに参加した際、とても興味深いセッションがありました。 The search for relevance with Vector Search 内容としては以下のブログと同じかと思います。 www.elastic.co ざっくり説明するとElasticsearch + Ingest Pipelineを使えば自前でMLモデルから特徴量を抽出するようなサービスを立ち上げる必要なく、ドキュメントにembeddingを埋め込めるよと言った内容の講演でした。 かつ、Ingest Pipelineを利用することで、リアルタイム更新にも対応しているという優れものです。これは試してみるしかと思い、今回はその検証を行ったリポジトリを公開・及び主要なポイント

                                                              • 6 strategic ways to level up your CI/CD pipeline

                                                                EngineeringEnterprise6 strategic ways to level up your CI/CD pipelineFrom incorporating accessibility testing to implementing blue-green deployment models, here are six practical and strategic ways to improve your CI/CD pipeline. In today’s world, a well-tuned CI/CD pipeline is a critical component for any development team looking to build and ship high-quality software fast. But here’s the thing:

                                                                • TEKTON Trigger + PipeLine で git push から デプロイまでの自動化 - Qiita

                                                                  この記事は、TektonパイプラインでコンテナをビルドしてK8sクラスタへデプロイする方法の続きで、次図の左上のデベロッパーが git push するだけで、右端のKubernetesクラスタの環境にデプロイされるまでの途中工程を Tekton Trigger と Pipeline を組み合わせて実現する。前回の記事は、図後半のパイプラインの構築したものであった。今回は前半のGitリポジトリのWebhookを受けて、パイプラインを実行する部分を重点に書いていく。 環境設定 どのクラウド上でもTektonは動作するので、下記 kubectl get node でワーカーノードがリストされた状態から、記事の内容は始める。GitHubからのWebHookを受ける部分で、イングレスコントローラに割り当てられたドメインとシークレットを参照するために、IBM Cloud 固有のコマンドを実行する部分が

                                                                  • Jenkinsfileの書き方 (Jenkins Pipeline) - Qiita

                                                                    まずはじめに つい先日、はじめてjenkins pipelineのためのJenkinsfileを作成し、PHPアプリケーションのワンクリックデプロイを実現しました。今回は振り返りの意味も込めて、その際に事前に知っておくと良かった点をまとめていきます。これから、Pipelineを構築したい方は参考にしてみてください。 環境は以下の通りです。 CentOS: 7.3.1611 Jenkins Version: 2.73.2 私の場合は、Pipelineを作成する前にRubyで書かれたCapistranoというデプロイツールでリリース用のスクリプトをすでに構築・運用済みでした。慣れてしまえば十分な環境でしたが、毎回コマンドを叩く手間と増加するチームメンバーへの共有コストを考えるとよりシンプルな手順が必要だと感じてきたため、Jenkinsへの移行を決断しました。 移行プロセスとして、ゼロからCap

                                                                    • Helmfile: Supercharge your deployment pipeline


                                                                      • Building end-to-end AWS DevSecOps CI/CD pipeline with open source SCA, SAST and DAST tools | Amazon Web Services

                                                                        AWS DevOps & Developer Productivity Blog Building end-to-end AWS DevSecOps CI/CD pipeline with open source SCA, SAST and DAST tools DevOps is a combination of cultural philosophies, practices, and tools that combine software development with information technology operations. These combined practices enable companies to deliver new application features and improved services to customers at a highe

                                                                        • Hugging Face のポジネガ、言語モデル、固有表現抽出、要約、翻訳が行えるpipelineを試す | ゆるいDeep Learning

                                                                          下記にHuggingFaceのパイプラインの情報があります。 https://huggingface.co/transformers/main_classes/pipelines.html パイプラインで実行可能なタスクは下記になります。 ConversationalPipelineFeatureExtractionPipelineFillMaskPipelineQuestionAnsweringPipelineSummarizationPipelineTextClassificationPipelineTextGenerationPipelineTokenClassificationPipelineTranslationPipelineZeroShotClassificationPipelineText2TextGenerationPipelineTableQuestionAnsweri

                                                                          • ML Pipeline Architecture Design Patterns (With Examples)

                                                                            Case studyHow deepsense.ai Tracked and Analyzed 120K+ Models Using Neptune Case studyHow ReSpo.Vision Uses Neptune to Easily Track Training Pipelines at Scale

                                                                            • Announcing Cloudflare Images beta to simplify your image pipeline

                                                                              Announcing Cloudflare Images beta to simplify your image pipeline2021-04-20 Today, we are announcing the beta of Cloudflare Images: a simple service to store, resize, optimize, and deliver images at scale. In 2018, we launched Stream to provide a single product that could be used to store, encode, and deliver videos. With Cloudflare Images, we are doing for images what Stream did for videos. Just

                                                                              • Using the K3s Kubernetes distribution in an Amazon EKS CI/CD pipeline | Amazon Web Services

                                                                                AWS Open Source Blog Using the K3s Kubernetes distribution in an Amazon EKS CI/CD pipeline Modern microservices application stack, CI/CD pipeline, Kubernetes as orchestrator, hundreds or thousands of deployments per day—this all sounds good, until you realize that your Kubernetes development or staging environments are messed up by these deployments, and changes done by one developer team are affe

                                                                                • New Relic One の Terraform CI/CD Pipeline by GitHub Actions - BASEプロダクトチームブログ

                                                                                  こんにちは。BASE BANK 株式会社 Dev Division にて、 Software Developer をしている東口(@hgsgtk)です。 BASE 株式会社では、New Relic 株式会社のプレスリリースで発表されている通りオブザーバビリティプラットフォーム「New Relic One」を導入しています。 newrelic.com 私が所属している BASE BANK 株式会社のプロダクトチームでも New Relic One を活用しています。当チームでは AWS や GCP などのインフラ構成管理に Terraform を利用しております。New Relic One での設定情報も Terraform でのコード管理をすると次のような利点が得られて便利です。 設定内容がコードとして可視化される 意図しない設定変更を切り戻したい場合に Terraform の機能で戻しや

