並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 51件

新着順 人気順

datalakeの検索結果1 - 40 件 / 51件

datalakeに関するエントリは51件あります。 データdataaws などが関連タグです。 人気エントリには 『データ収集の基本と「JapanTaxi」アプリにおける実践例』などがあります。
  • データ収集の基本と「JapanTaxi」アプリにおける実践例

    1. Mobility Technologies Co., Ltd. Data Engineering Study #2 データ収集の基本と 「JapanTaxi」アプリにおける実践例 株式会社 Mobility Technologies 渡部 徹太郎 2020/8/19 2. Mobility Technologies Co., Ltd. 自己紹介 2 ID :fetaro 名前:渡部 徹太郎 学生:東京工業大学でデータベースと情報検索の研究 (@日本データベース学会) 職歴: * 野村総合研究所(NRI) - オンライントレードシステム基盤 - オープンソース技術部隊 * リクルートテクノロジーズ - ビッグデータ分析基盤 * MobilityTechnologies - データエンジニア エディタ:emacs派→ InteliJ派 日本AWSユーザ会(JAWS) ビッグデータ支部長

      データ収集の基本と「JapanTaxi」アプリにおける実践例
    • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

      最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

        新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
      • Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715

        Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg …

          Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
        • 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services

          Amazon Web Services ブログ 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 去年よりAWSのメンバー4名(志村、上原、関山、下佐粉)でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。 幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。 一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新:第4回の資料を追加公開しました 以下よりご覧いただけます。(PDFフ

            「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
          • 事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2

            Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者 :しんゆう@データ分析とインテリジェンス Twitter:https://twitter.com/d…

              事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
            • データ分析基盤における個人情報の扱いについて - NRIネットコムBlog

              こんにちは佐々木です。 誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報&パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。 データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの3層構造にすると良い - NRIネットコムBlog 個人情報&パーソナルデータと匿名加工について まず最初に個人情報&パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。 個人情報&パーソナルデータ 個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma

                データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
              • データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog

                こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日 データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。 構造化データと半構造化データ、非構

                  データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
                • N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ

                  はじめに 昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。 はじめに N予備校における従来のデータの取り扱い 現在の取り組み 本番環境のデータのBigQueryへの蓄積 データ活用のプロトタイピング そのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討 分析対象のデータ拡充 データの管理体制 機械学習技術等の活用 おわりに We are hiring! N予備校における従来のデータの取り扱い まず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現

                    N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
                  • 民間企業におけるデータ整備の課題と工夫 / 20220305

                    第16回日本統計学会春季集会での発表資料です。 https://confit.atlas.jp/guide/event/tjss2022spring/top https://ies.keio.ac.jp/events/17173/ 講義や共同研究のご相談はブログのお問い合わせ欄にご連絡ください…

                      民間企業におけるデータ整備の課題と工夫 / 20220305
                    • AWS データレイク事例祭り 登壇資料

                      AWS データレイク事例祭り 登壇資料です。

                        AWS データレイク事例祭り 登壇資料
                      • S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO

                        本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか?本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。 概要 データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか?データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ

                          S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
                        • 触ってわかるデータレイクハウス(Parquet, Iceberg, Trino)

                          この記事は毎週必ず記事がでるテックブログ Loglass Tech Blog Sprint の79週目の記事です! 2年間連続達成まで残り27週となりました! 昨今、データエンジニアリングの重要性が高まるなか、データレイクハウスという言葉を聞く機会が増えてきました。一方で、BI、DWH、データレイクといった分野は、色のついた商用製品であったり大規模な技術スタックになったりと気軽に触りにくい印象があったりもして個人的に最近はあまり触れてこなかった分野でした(15年程前はだいぶBI製品にお世話になりましたが)。 でも、実はかじってみると美味しい、単なる食わず嫌いだったかもしれません。この記事では前半にデータレイクハウスを概観しつつ後半に軽くハンズオンしてみたいと思います。チョイスは、最も使われるフォーマットである Apache Parquet 、S3 Tables の元となっている Apach

                            触ってわかるデータレイクハウス(Parquet, Iceberg, Trino)
                          • Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ

                            こんにちは佐藤です。 今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。 背景 Dataformについて 導入して良かったこと 依存関係がわかりやすい クエリのテスト 工夫した点 フォルダの構成について データセット名、テーブル名について シャーディングテーブルの定義について 最後に 背景 現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。 その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい

                              Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
                            • データ基盤の品質向上への取り組み - Classi開発者ブログ

                              こんにちは、データエンジニアの石井です。 先日公開した記事「社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話」で、ダッシュボード機能のリリースにより、Classiのデータ基盤が「社内用データ基盤」から「ユーザー影響あるシステムの一部」へ進化した話をしました。「ユーザー影響あるシステムの一部」への進化に伴い、データ基盤の品質担保は必要不可欠です。今回は、データ基盤の品質向上に取り組んだKANTプロジェクトについてご紹介します。 KANTプロジェクト 背景・課題 Classiのデータ基盤がユーザー影響あるシステムの一部になる前、つまり社内用データ基盤だった頃には以下のような課題がありました。 データ基盤の状態把握 マルチクラウドにおけるデータ基盤全体の状態把握ができていなかった データ基盤の実行状態(SUCCESS, FAIL, RUNNINGなど)の把握が、

                                データ基盤の品質向上への取り組み - Classi開発者ブログ
                              • Amazon DataZone でデータカタログを実現する - Taste of Tech Topics

                                はじめに こんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。 さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。 データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。 はじめに 概要 データレイクとは データカタログとは なぜAmazon DataZoneが必要か(AWS Guleとの違い) Amazon DataZoneとは サービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる 構成概要 データ準備 ドメインとデータポータルの作成 プロジェクトの作成 環境の作成 データカタログの作成 データアセッ

                                  Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
                                • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

                                  はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

                                    AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
                                  • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                    はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                      データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                    • 私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO

                                      データアナリティクス事業本部の鈴木です。 自分がデータ分析基盤の技術調査をする際、こういうことに気をつけるとうまく行きやすいなというポイントがまとまってきたので、ブログにしてみました。 あくまで1例として参考になればと考えています。 課題意識 ほかのメンバーで、技術調査に慣れていない方に調査をお願いするとき、初めはある程度やり方を説明したり、レビューを手厚くしたりすると思います。私が初めて技術調査をしたときは、やり方が分からず、先輩にかなりお世話になったことを覚えています。 最近では、私からほかのメンバーに調査をお願いをする側になる場面が少しづつ出てきたので、「お願いしたいことはある程度ブログにしておいた方が、聞く方が言われたことを全部覚えてなくていいし、絶対ええやろな〜」と思い、記事にしてみました。 場面としてはデータ分析基盤を構築する上で必要になる技術調査を想定しています。 技術調査の

                                        私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO
                                      • 分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)

                                        タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC

                                          分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
                                        • AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog

                                          AWS Lake Formationでのデータレイク登録からデータアクセスまで この記事は NTTコミュニケーションズ Advent Calendar 2021 の16日目の記事です。 はじめに はじめまして!BS本部SS部の荒井です。データマネジメントに関するプリセールスを担当しています。 今回はアドベントカレンダー企画ということで、AWS Lake Formationに関する記事を投稿をさせていただきます。 データレイクとAWS Lake Formation 近年データ分析の盛り上がりなどから、散逸している様々な形式のデータを一元管理できるレポジトリ、いわゆるデータレイクを導入するケースが増えてきています(参考:データレイクとは)。 例えばシステムごとに保存されていた「会員データ」「購入履歴」「問合せ履歴」などのデータをデータレイクに集約することでシステム横断の顧客分析を手軽に行うこと

                                            AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog
                                          • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                                            プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

                                              社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                                            • Data Meshとは何か?

                                              Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                                                Data Meshとは何か?
                                              • DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO

                                                さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13~16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ

                                                  DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO
                                                • Dataplex: data governance

                                                  Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.

                                                    Dataplex: data governance
                                                  • BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ

                                                    前提 状況 整理整頓 Step0: 前提知識 Step1: 整理の軸を決める Step2: 仕様を整理する Step3: 手段の整理 結論 おわりに こんにちは、開発事業部で PM をしている丸山です。 キカガクでは昨年夏に GCP を中心としたデータ基盤へ移行しました。 データ基盤では現在次のように複数ソースのデータを BigQuery へ集約し、加工していくような構成を取っています。 infra 半年程度運用してデータパイプラインの管理のつらさが表面に浮かんでくる中で、上図にも記載があるワークフロー管理ツールの導入に踏み切ったのですが、その際に無秩序となっていた BigQuery のデータセット/テーブル構成に関してもテコ入れをしましたので、そちらの内容を書いていこうと思います。 前提 本題に入る前に、前提として今回扱っているデータ基盤は下記の規模感のものとなります。 扱うデータソース

                                                      BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ
                                                    • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

                                                      広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

                                                        更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
                                                      • 新感覚なELTツール「Meltano」を使ってSlackのデータをDWHに連携してみた | DevelopersIO

                                                        大阪オフィスの玉井です。 今回はMeltanoというツールをご紹介します。 Meltanoとは? 公式から引用すると「DataOps時代におけるEL(T)ツール」だそうです。 … …私の個人的な感覚で説明しますが、絶妙な位置づけのEL(T)ツールです。やることはELT(メインはEL)なのですが、とにかく位置づけが絶妙なのです。 Meltanoの絶妙なポジション データをE(抽出)してL(ロード)する…という仕組みを行いたいとき、ざっくり分けると、下記のどちらかを選ぶと思います。 手動で開発する(Pythonなど) そういうサービスを導入する(Fivetranなど) 前者は何でもできますが、人と時間のコストが半端じゃないです。後者はめちゃくちゃ楽ですが、ちょっとカスタマイズしたいみたいな時に、あまり身動きがとれません(融通が効きづらい)。 Meltanoは上記の中間に位置する感じです。コード

                                                          新感覚なELTツール「Meltano」を使ってSlackのデータをDWHに連携してみた | DevelopersIO
                                                        • グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム

                                                          はじめにはじめまして!! 株式会社グロービスのデジタル・プラットフォーム部門、データサイエンスチーム、データエンジニアリングユニットにてソフトウェアエンジニアをしております、爲岡 (ためおか) と申します。 (肩書きが長くてすみません。) グロービスには当初、機械学習エンジニアとして入社しましたが、現在は機械学習や分析に利用するためのデータ基盤の開発・運用をメインで担当しています。 この記事では、グロービスのデータエンジニアリングユニットが運用しているデータ基盤のアーキテクチャについてご紹介できればと思います。 グロービスについて突然ですが、皆様はグロービスに対してどのようなイメージをお持ちですか? 特にテクノロジーの領域で働く方々にとって、そもそもグロービスという企業を知らない、という方が大半なのではないか、と思っています。 また、もしご存じだとしても、経営大学院や研修事業など、テクノロ

                                                            グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム
                                                          • Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました! #reinvent | DevelopersIO

                                                            Icebergの強みを活かす INSERT INTOで300万レコードのデータコピー 普通のAthenaのテーブルと比較して、オーバヘッドが生じることが確認できました。上記では、1レコードINSERTでも7秒かかったりしたので、300万レコードをINSERT INTOしたときの時間がどうなるのかを確認したいと思います。 上記のテーブルからパーティションを取り除いて、INSERT INTOでデータのコピー先のテーブルを作成します。 CREATE TABLE iceberg_table ( id int, data string, category string) LOCATION 's3://<mybucket>/iceberg_table/' TBLPROPERTIES ( 'table_type'='ICEBERG', 'format'='parquet', 'compaction_bi

                                                              Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました! #reinvent | DevelopersIO
                                                            • Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog

                                                              Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか? Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ

                                                                Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
                                                              • スケールし続ける組織におけるデータマネジメント|ササキエア@マネーフォワード

                                                                お久しぶりです。マネーフォワード分析推進室で日々データマネジメントに勤しんでいるササキです。他の方が書いた記事内にはちょこちょこ登場したりもしていたのですが、自分で記事を書くのはだいぶお久しぶりになってしまいました。 今回はマネーフォワードでなぜLookerを導入したかという話を軸に、マネーフォワードにおけるデータマネジメントについて整理してみたいと思います。後述しますが、マネーフォワードは組織の人数も事業の数もものすごいスピードで増えており、そういった環境下でのデータマネジメントに求められることを発信することで似た悩みを抱えている or 今後抱えそうな組織の助けになれることを期待しています。 前段:マネーフォワードの組織と事業領域は拡大している👆さて、本編に入る前にまずはマネーフォワードという会社全体の動きについて、IR資料を引用しつつ紹介させてください。 マネーフォワードが大切にして

                                                                  スケールし続ける組織におけるデータマネジメント|ササキエア@マネーフォワード
                                                                • 【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO

                                                                  みなさんこんにちは、杉金です。 今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。 セッション概要 生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに

                                                                    【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
                                                                  • 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH

                                                                    本書の概要「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak

                                                                      【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
                                                                    • Data Mesh の記事を読んだ - ブログ・ア・ラ・クレーム

                                                                      一年以上前の記事だけど、 https://martinfowler.com/ に "Data Mesh" をうたう記事があったので軽く読みました。 martinfowler.com こちらに日本語で概要をまとめた記事もありご一読することをおすすめします。 僕の個人ブログを見るより確実で良い情報を得られるでしょう。 https://www.infoq.com/jp/news/2020/03/distributed-data-mesh/ 以下では現行のぼくの業務と照らし合わせて、 Data Mesh について個人的解釈などを書いていきます。 Current status ... 二年くらい前に builderscon で "メルペイにおける、マイクロサービスに寄り添うログ収集基盤" みたいなタイトルで LT で発表したりしました。 当時、急速に開発されるマイクロサービス群と元から存在したモノリ

                                                                        Data Mesh の記事を読んだ - ブログ・ア・ラ・クレーム
                                                                      • カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ

                                                                        はじめに こんにちは。High Linkのデータエンジニアの芦川 (@hirorororo772) です。 私たちが運営する香水サブスクサービス「カラリア」では、「香水診断」、「レコメンド機能」、「フレグランスプロフィール」など、データを活用したさまざまな機能を提供しています。 こういった機能を提供するためには、ロジックの開発だけでなく、安定的に提供するための基盤や開発を加速させるためのCI/CD基盤やデータパイプラインの構築(MLOps)が重要になってきます。 今回は、カラリアにおけるデータを活用した機能の裏側についてご紹介したいと思います。 スタートアップである私たちは、小さくはじめてスピードは保ちつつ、中長期的に開発スピードや運用コストにレバレッジを効かせられるよう意識してきました。 設計面で考慮したポイントや、実際に運用してみた所感なども併せてご紹介いたしますので、これからミニマム

                                                                          カラリアのデータ基盤と機械学習基盤 - 小さく始めるMLOps - High Link テックブログ
                                                                        • AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO

                                                                          id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定 今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項 デプロイパッケ

                                                                            AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
                                                                          • dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~

                                                                            「Looker User Meetup Online #8」にて登壇した内容となっております

                                                                              dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~
                                                                            • メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog

                                                                              こんにちは、Mercari Analytics Blog 編集部です。 連載「メルカリのデータアナリストが向き合う11のテーマ」、今回はAnalytics Infraチーム、@nambさんによる記事です。@nambさんはデータアーキテクトとして入社し、メルカリのデータ分析基盤を整備しています。今回は「データ利用監視」というテーマで、仕事の内容を語っていただきました! データ基盤の改善は「利用状況の把握」から始まる――取り組みのミッションは何ですか? データの利用環境の改善を通じて、データに基づいた意思決定をサポートしています。 前提として、データセットやテーブルのメンテナンスにおいては、影響範囲の評価や優先順位の決定が重要だと考えています。メルカリでは、中間テーブル作成などの積極的なデータ環境改善に加え、プロダクトの改善・データフローのリニューアルに伴うデータのリプレースも常に並行して実施

                                                                                メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法|Mercari Analytics Blog
                                                                              • 「[増補改訂]ビッグデータを支える技術」を書きました - Qiita

                                                                                2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ [増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景 本書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。 本書の概要については次のページにまとめられています。 本書について ―改訂にあたって もともとは旧第6章のサンプルコードを書き直すくらいのつ

                                                                                  「[増補改訂]ビッグデータを支える技術」を書きました - Qiita
                                                                                • GitHub - treeverse/lakeFS: lakeFS - Data version control for your data lake | Git for data

                                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                    GitHub - treeverse/lakeFS: lakeFS - Data version control for your data lake | Git for data

                                                                                  新着記事