サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
今年の「#文学」
note.com/dd_techblog
1.概要この記事では、Google Analytics 4(GA4)とGoogle Search Console(GSC)のデータを組み合わせて分析する方法や分析に必要なSQLについて記載します。 GA4のデータ、GSCのデータの結合の仕方や可視化、解釈の仕方の一例としてご覧ください。 なお、分析に際してBigQueryを使用しています。 GA4、GSCデータのBigQuery連携方法は以下ページを参考にしてください 2.GA4 と GSC のデータをつなげてわかることGA4のデータは自社サイト内のパフォーマンス、ユーザー行動を収集しています。 GSCのデータは、自社サイトがGoogleの検索結果として表示されたページ、検索キーワードを収集しています。 大前提として、GA4とGSCのデータは同じユーザーを識別できるデータを持っていません(2024年1月時点)。 そのため、特定の検索キーワー
電通デジタルの中野です。 今回は、Google Analytics 4(GA4)をBigQueryで分析する際によく使うSQLをまとめました。 自身の業務でもよく使用するため備忘録的な側面もありますが、参考までに活用いただければと思います。 前提BigQueryに連携したGA4データにはいくつか前提条件があります。 その中で最も大きな点は、GA4のレポート画面と数値が一致しない場合がある、ということです。 詳細については、こちらのページに記載があります。 ユーザー数やセッション数といったユニーク数を算出する場合、データ量が多いと計算に時間がかかります。そこでGA4レポートではHyperLogLogというアルゴリズムを使用して近似値を算出しています。 精緻な値を計算する場合は、現状BigQuery以外に手段がありません。こういった制約からもBigQuery上でSQLを使った分析をする場面は増
電通デジタルでデータサイエンティストをしている福田です。 これはDentsu Digital Advent Calendar 2021の10日目の記事です。 本記事ではXAIの手法の1つであるSHAPについて解説したいと思います。 XAIとはXAIとはexplainable AIの略で、説明可能なAIまたはAIの予測結果を説明する技術のことを指します。モデルの解釈性と精度は基本的にはトレードオフの関係にあり、重回帰や決定木のようなわかりやすいモデルがある一方で、精度を求めようとするとXGBoost、LightGBMのような複雑なモデルに頼ることが多いと思います。XAIは後者のような精度は高いが解釈性が低いモデルをターゲットとしています。 SHAPSHAP(SHapley Additive exPlanation)とは局所的なモデルの説明(1行のデータに対する説明)に該当します。予測値に対し
電通デジタル 事業戦略室 開発部の佐藤です。 コードのバージョン管理システムとしてGitHubを利用する企業も増えるなか、機密情報の漏洩も増加傾向にあります。そこで、GitHubのEnterpriseプランへ加入してセキュリティの強化について試してみました。 ※IoT OT Security News「GitHub 調査:不適切なソースコード管理によりパスワードなどの機密情報が漏洩」 EnterpriseプランではSecret scanningというセキュリティ機能に加えて、今年の4月より利用可能になったSecret scanningの機能の一部であるPush protectionという強力なセキュリティ機能が使えるようになります。Secret scanningについてはすでに具体的な記事がいくつかあがっている一方、Push protectionに関してはまだ具体的な記事があがっていなかっ
電通デジタルで SRE をしている神田です。この記事は、電通デジタルアドベントカレンダー2021 17日目の記事になります。 私は、BOT BOOSTaR® というチャットボットツールの開発・運用に携わっています。BOT BOOSTaR®ではサーバーレスアーキテクチャを採用しており、AWS Lambda を利用する機会が多いです。また、私が所属する開発部ではもともとバックエンドサービスの開発言語として Go を採用することが多かったので一部テスト的に Go を使い始めています。本日は、Go で AWS Lambda 関数を開発する際のローカル環境でのテストについて話します。 GoでAWS Lambda関数を実装するときの問題 AWS Lambda 関数を開発する場合、開発言語ごとに用意されているランタイム から適当なバージョンを選びます。Go で Lambda 関数を開発しようとした場合、
電通デジタルでSite Reliability Engineer(SRE)をしている齋藤です。 本記事は電通デジタルアドベントカレンダー2021 8日目の記事になります。 本記事ではGitHub Actionsの利用遍歴と認証情報管理について、弊社の自社開発部門で検討した内容をご紹介させていただきます。 2021年末時点のGitHub Actionsパブリッククラウド認証情報管理ベストプラクティス結論から書くと本記事執筆時点(2021年11月)では弊社が検討した内容は横に置いて、多くのケースで2021年10月末のGitHub社のイベントで公表されたGitHub Actions Open ID Connect(プレスリリース, ドキュメント)を利用するのがよいと思います。 公式から図を引用すると GitHub Actions Open ID Connect FlowGitHub OIDC p
電通デジタルアドベントカレンダー2021 6日目の記事です。 はじめにこんにちは。電通デジタル開発部エンジニアの石原です。 データの分析基盤として、大規模データを扱えて処理が高速なBigQueryはとても便利ですよね。弊社でも日々活用しています。 特にBigQueryで中間テーブルを日々更新したり、分析用のテーブルを定期的に最新化するために、クエリのスケジューリング設定をよく使用しています。 この記事では、bqコマンドを使用してスケジューリング設定を行う際に、特にサービスアカウントを利用し、かつ特定の時間を指定する方法をご紹介します。 よくあるユースケースだと思いますが、Google Cloudの公式ドキュメントの該当ページには詳しく載っていないユースケース(2021年11月時点)なので、ぜひ皆さんの参考になればと思います! 特に、これまでコマンドからスケジューリング設定したことがない方は
電通デジタルでデータサイエンティストを務める吉田です。 これはDentsu Digital Advent Calendar 2021の3日目の記事です。 今回の記事では、今年出てきたばかりのddc.vimというVimの自動補完プラグインを試しに使ってみたので、基本的な実装例と使用感について紹介したいと思います。執筆時点ではまだBeta版とのことですが、動作は安定していて個人的にかなり使用感がよかったので紹介します。 エディタの自動補完についてこの記事での「自動補完」とは、入力中のテキストに応じてそのバッファでの既出単語やプログラミング言語の文法に沿った単語の入力候補を自動で表示し、選択できるようにする入力補助機能のことです。これがあるとコーディングスピードが上がったり、型や文法のヒントが表示されるので便利ですね。最近の高級エディタではデフォルトの状態でも自動補完機能が付いているものもありま
こんにちは、電通デジタル開発部エンジニアのリチャードです。この記事は、Dentsu Digital Advent Calendar 2021の2日目の記事です。 現在弊社の開発部内では、データマネジメント知識体系ガイド(以下DMBOK本)という本に注目していて、同書籍に関する社内勉強会を不定期で開催しています。 データ基盤などの開発経験が豊富なエンジニアからは、DMBOK本に対して以下のような好意的な意見があがっています。 - 「手探りで取り組んでいた課題が体系化されているので理解しやすい」 - 「自分たちのデータマネジメントの取り組みで、何が足りないのかわかる」 - 「概念を整理した図表が見やすく、コミュニケーションの助けになりそう」 一方でDMBOK本はデータマネジメントに関する知識を網羅的に扱っているので、672ページ、17章と、その分量に圧倒されそうになる書籍です。経験豊富なエンジ
こんにちは!電通デジタル開発部エンジニアのリチャードです。 技術ドキュメントを書く際に効果的な図解を用いると、文章だけの場合より内容も見やすくなります。 また図の見やすさだけでなく、描き変えやすさも重要です。その理由はソフトウェア開発の現場における技術ドキュメントは、継続的に更新し続けることが多く、図もそれに従って描き変えるからです。 この記事では見やすく描き変えやすい図解を作成するテクニックとして「図の分割」を紹介します。数ある図解テクニックの中でも、すぐに使えて効果の大きいものなのでぜひ利用してみてください。 1つの図に情報を詰め込みすぎない図の分割テクニックの詳細をお話しする前に、その反対である、たくさんの情報を1つの図に詰め込んでしまう例を紹介します。 以下はAWS上に構築した架空のアプリケーションのインフラ全体図です。図中の要素の数が多いので、見て理解するには時間がかかりますし、
電通デジタルでデータサイエンティストをしている中嶋です。 この記事では、これまで紹介したLiNGAMの派生形であるVAR-LiNGAM(Vector AutoRegression-LiNGAM)について紹介したいと思います。これは通常のLiNGAMにベクトル自己回帰モデル(Vector AutoRegression Model: VAR Model)の考え方を取り入れ、時系列性の因果も考慮した因果探索を行うものです。 今回の記事では分量の関係からGoogle Colabでの実装は割愛し、元論文[1]を参考にしながら主に理論的な部分の紹介を行います。 定式化VAR-LiNGAMの定式化を説明する前に論文の形式に倣ってまずはLiNGAMとVARそれぞれの定式化をおさらいします。個別の説明に入る前に全体像を以下に示します。 LiNGAM LiNGAMとはLinear Non-Gaussian A
この記事について電通デジタルでデータサイエンティストをしている中嶋です。今回の記事では統計的仮説検定における検出力や効果量の概念及び、それらを考慮した事前のサンプルサイズ設計について説明します。読者層としては、既に統計的仮説検定の基本的な使い方を理解している方を主な対象としていますが、そうでない方にもわかるように最初に簡単な復習をします。 統計的仮説検定について 概要 統計的仮説検定(以下、仮説検定)とは、性質の異なるグループ間で平均や分散など各グループを代表するような数値を比較する際に、その差が偶然生じたものか、そうでなく何かしら必然性がありそうかを検証するための統計手法です。例えば比較分析したい2つの群(ex. ユーザーグループ)があった時にある指標(ex. 各群の年齢の平均値)を比較して、統計的に偶然ではないレベルで差異が生じているかを判定したいときに仮説検定を使うことができます。
電通デジタルでデータサイエンティストを務める吉田です。 本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。 データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。 一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。 簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー
こんにちは、電通デジタル開発部エンジニアのリチャードです。 前回の記事ではGoogle Analytics 4プロパティの基礎知識について、GA4移行を技術的に正しく理解しながら進めるために、事前に抑えておくべきポイントを紹介しました。 前回の記事からの続きで後半にあたる本記事では、GA4移行ステップとそれに伴って私たちが行ったBigQueryエクスポートの設定をもとに、これらの作業でつまずかないための6つのポイントを紹介します。ビデオや公式ヘルプを見るだけでは設定を間違ってしまいそうな部分を中心に説明し、公式資料を見た方が早い部分についてはリンクを貼って、公式資料と重複する説明は避けています。 本記事の想定読者層本記事は主にエンジニアに読まれることを想定して書いています。自分が担当するアプリケーションにすでにGoogle Analyticsが導入されていて、ビジネスサイドからの要求などに
Google Analytics 4プロパティ移行を技術的にしっかり理解したい人のための、3つのポイントと迷わない資料のたどり方 はじめにこんにちは、電通デジタル開発部エンジニアのリチャードです。 Google Analytics 4プロパティ(以下GA4)は2020年に発表され、Googleの機械学習モデルを利用したトレンドの検知や、複数デバイスにまたがるユーザー行動の計測、それまでAnalytics 360で有償機能として提供されていたBigQuery連携の無料利用が可能など、様々な機能を持っています。 弊社では、社内開発しているプロダクトの1つで最近このGA4を導入しました。魅力的な機能が多いGA4ですが、私たちがその導入過程でトラブルシューティングに苦労した部分や、公式ドキュメントや動画を見ても当初誤解していた部分が多々ありました。全てをわかった上で公式資料を見直すと「丁寧に情報を
電通デジタルでSREをしている神田です。突然ですが、みなさんAWS CLI短縮構文をご存知でしょうか? awsコマンドを使っているときに、コマンドのオプションとしてfoo=bar や foo,bar,baz といった構造を持ったパラメータを要求されることがあります。このパラメータを記述するための構文が短縮構文(shorthand)です。 本記事では、普段なんとなくお世話になっている短縮構文をシェルスクリプトから使ったときに陥りやすい罠を紹介します。 AWS CLI短縮構文の簡単な例 短縮構文は、JSONと等価な値を簡潔に表現するための構文です。JSONとの対応をみると内容を理解しやすいです。 例えば、 ["foo","bar","baz"]というJSONの配列は、短縮構文では、 foo,bar,bazと書くことができます。 また、 {"key1": "val1", "key2": "val
電通デジタルでBIエンジニアをしている三瓶です。 普段は社内向け広告運用改善ダッシュボードのデータエンジニアリング周りを担当しています。 本記事では、AirflowのOperatorを使ってBigQueryのテーブルの値によって実行するタスクを分岐する方法についてご紹介します。 Airflowの実行タスクを分岐するに至った理由 弊社では主にワークフローエンジンのAirflow[1]を用いて取得したデータのETL関連タスクをワークフロー(DAG)に乗せて実行しています。 しかし、上の管理画面の画像のように多種多様なDAGを常時複数運用をしていると、出力結果の品質チェックを毎回行うのはかなりのコストがかかり日々コストの効率化に勤しんでいます。 そこで考案したのがBigQuery上の出力結果を取得し、品質的に異常があった場合はその内容をSlackへ通知し、そうでない場合は通常通りDAGを完了する
Appleの新しいクロスサイト計測規制:Private Click Measurement(PCM)の内容と運用型広告に与える影響 「アンチトラッキング」の潮流電通デジタルでソリューション開発のプロマネをしている三谷です。Ads Data HubをはじめとしたData Clean Roomを活用した分析パッケージの開発であったり、ADとCRMデータを連携した新しい広告運用”X-Stack”や広告の因果推論評価を行う新指標”True Lift Model®”の考案など、広告主の事業成果を向上させるための新規ソリューションの開発を担当しています。 今回は10年に1度の大変動であるアンチトラッキングの実情と電通デジタルの対応についてご紹介します。 近年、Cookieやモバイル広告ID(ADID/IDFA)の利用に制限がかかる、というニュースが多く報じられています。デジタルマーケティング業界内では
スクラムとアジャイル開発の本を12冊一気に読んでみた!その中から初心者、中級者、上級者向けのおすすめを紹介 こんにちは電通デジタル開発部エンジニアのリチャードです。弊社で開発している社内プロダクトEASIではスクラム開発を採用しており、開発部内には認定スクラムマスターも在籍しています。一方で私個人はこれまでスクラム開発を経験してはいたものの、断片的な知識と経験で乗り切っていた部分が強く、改めてスクラムやアジャイル開発の基本を学び直そうと思い立ち、12冊の本を一気読みしました。ちょうど数ヶ月前に電通デジタルへと転職したばかりだったので、よい機会だったと思います。 今回読んだ本の一覧はこちらです!過去に読んで改めて今回読み直した本もあるため、冊数は多くなっています。 初心者向け 1. いちばんやさしいアジャイル開発の教本 2. SCRUM BOOT CAMP THE BOOK 中級者向け 3.
電通デジタルで機械学習エンジニアをしている今井です。 本記事では、Amazon Redshift MLでUplift Modeling分析を行うための方法について紹介します。 Amazon Redshift MLについて 2020年12月にAmazon Redshift MLのプレビュー提供が開始されました。 (端的に表すとGoogleが提供するBigQuery MLのAmazon Redshift版です) 執筆時点ではSageMaker Autopilotによる回帰/二値分類/多値分類と、XGBoost(SageMakerビルトインモデル版)による回帰/二値分類/多値分類/ランキング学習が使用可能です。 Redshift MLを使うための環境構築についてはこちらのAWS記事を参考にしてください。 まずはモデルを作成するためのスキーマをデータベース内に作成します。 CREATE SCHEM
電通デジタルテックブログ運営の齋藤です。 前回の記事は「電通デジタルが考えるデータ系職種のあれこれ」でした。電通デジタルTechアドベントカレンダー最終日は、本年のテックブログの振り返りのエントリになります。 本テックブログはちょうど1年前の2019年12月25日に「BigQueryで傾向スコア分析」というエントリで開始しました。 その後、テックブログ自体に言及した記事がなかったので以下3点についてそれぞれ書かせていただきます。 ・本テックブログ設立の目的 ・2020年の活動集計 ・ふりかえりと来年の抱負 本テックブログ設立の目的本テックブログ設立の目的は大きく2つあります 1. 弊社のエンジニアリング領域業務の認知向上 2. ソリューションの認知や理解向上と発表場所の提供 それぞれについてご説明させていただきたいと思います。 1. 弊社のエンジニアリング領域業務の認知向上 弊社サイトの会
電通デジタルでデータサイエンティストを務めている荒川です。 電通デジタルアドベントカレンダー2020 前回の記事は「2020年秋、ビルドトラップに浸かりました。」でした。24日目の今日は、電通デジタルの主に広告領域における「データ」に関連する職種のマッピングを試み、どのような業務があるか簡単な紹介をしたいと思います。 本日お伝えしないこと 最初に、やや注釈が多くなってしまいますが本日「お伝えしないこと」をお伝えします。 電通デジタルの「データ」に関わるすべての職種紹介 電通デジタルは多くの領域でサービス提供をしており、すべての「データ」に関連する業務を網羅的に記述することは困難です。この記事では、現在私が所属するソリューション戦略部が担う広告領域および関連する領域が対象となります。ソリューション戦略部の業務内容は、電通デジタルアドベントカレンダー2020 初日の記事内で紹介した下記の通りで
こんにちは。電通デジタルでEMをしている河内です。 電通デジタルアドベントカレンダー2020の23日目の記事になります。前回の記事は「ECS Fargate 楽々構築テンプレート」でした。 今回は初日の記事でもありますが、我々の開発組織にはプロダクトを開発するチームがあります。このチームのスクラム開発でスクラムマスターという立場から今年学んだ失敗・課題をお伝えしたいと思います。 背景となるチームコンディション弊社でエンジニアの組織が立ち上がって2年ほどでほぼ中途のエンジニアで構成されています。組成してから内製で初めてのチームによるプロダクト開発を行い、途中からスクラムを導入して1年が経過しています。スクラムのプラクティスはほぼ全て実施。ベロシティは増加傾向。 スクラム導入初期はチャレンジングで概ねチームは上手く回りました。ただ1年も経つと課題は積もるものです。 課題見えてきた課題として、
この記事は電通デジタルアドベントカレンダー2020の22日目の記事になります。前回の記事は「ADH APIを効率的に呼び出すために開発したHooksの紹介」でした。 改めましてこんにちは! Docker使ってますか? AWSでDockerを使おうと思うと以下の3つの選択肢があります。 ・Elastic Container Service ・Elastic Kubernetes Service ・EC2に構築する この中でもECSいいですよね、僕も好きです。運用に手間もかからなくて気軽に使えるところに好感もてます。さすがAWSのマネージドサービス。 ただし実際にECSで構築しようとすると周辺のリソースが色々と必要になるので初心者にとってハードルが高く見えるのも事実です。そんなわけで初心者にも使えるようなテンプレートを提供したいと思います。 このテンプレートでは最低限の機能しか提供しません。何
こんにちは。電通デジタルでデータサイエンティストをしている長島です。 Advent Calendar 21日目となる本記事では、GoogleのAds Data Hub(以下ADH)を利用するためのRest APIを効率的に呼び出すために開発したPython Hooksをご紹介したいと思います。 ADHが何かというと、Googleが提供する、ユーザープライバシーに配慮したクラウドベースの分析基盤です。 詳しい内容は、公式サイトをご参照ください。 ADHにはWebUIとAPIが提供されていますが、弊社では、ADHのREST APIをhttprequest経由でPythonから効率的に呼び出せるよう、hook化して利用しています。 そのために必要なcredential取得方法も最後に記載しています。 公式のAPIリファレンスはこちら 初期化initimport httplib2 import t
電通デジタルでバックエンドの開発をしている平沼です。 Dentsu Digital Advent Calendar 2020 の 18 日目の記事になります。前回の記事は「Micro Frontends 導入の覚書」でした。 弊社では、社内 / グループ会社向けのデジタル広告運用実績管理システムのバックエンドサービスに gRPC を利用しています。また Web などから HTTP によるアクセスができるように、 gRPC から HTTP に変換して API を提供する grpc-ecosystem/grpc-gateway も利用しています。 grpc-gateway を利用するとき、 README.md 通りの使い方ではサービス運用上困ることがあります。今回はそのうち下記 3 点を取り上げて対応方法を紹介します。 ・grpc-gateway サーバ自身のヘルスチェックをしたい ・認証情報
電通デジタル エンジニアの おのきです。前回の記事は「SQLスクリプト上でのテーブルや共通テーブル式の依存関係を可視化する」でした。 今回はDentsu Digital Tech Advent Calendar 17 日目の記事になります。 私たちの開発チームでは、社内向け業務システム「EASI」においてデジタル広告のプランニングツールや過去実績のレポーティングツールを日々開発、運用しています。 「EASI」では MicroServices アーキテクチャーを採用し開発を進めており、バックエンドだけでなくフロントエンドについても Micro Frontends という仕組みを取り入れてサービス提供を行っています。 私たちのチームで Micro Frontends を導入してからちょうど一年になるので、ここで改めて導入の目的や選択した技術、導入手順、運用上の注意点や課題と対策をこの記事で覚書
電通デジタルでデータサイエンティストを務める吉田です。 こちらはDentsu Digital Tech Blogアドベントカレンダー16日目の記事です。 今回はSQLスクリプトを解析して参照されているテーブルや共通テーブル式の依存関係を可視化するツールを作成したのでご紹介いたします。 どのようなものを作ったか電通デジタルデータサイエンスグループでは普段、主にBigQuery上でSQLスクリプトを記述してデータの抽出や集計・整形作業を行うことが多いです。 最近ではBigQuery MLでBoostingTreeやAutoML Tablesのモデルが作成できるようになるなど機能が拡張されており、BigQuery上でデータを前処理してBigQuery MLで機械学習モデルを生成、といったようにデータ管理からモデリングまでBigQuery上で完結するシーンもみられるようになってきました。 シンプル
こんにちは、電通デジタル開発部のフロントエンドエンジニア石原です。前回の記事は「データサイエンティストでもできるサーバーレスなWebフォーム開発 」でした。電通デジタルアドベントカレンダー 15日目は、デザインシステムの話をお届けします。 はじめに − EASI とは 開発部では、デジタル広告の運用業務全般の各種自動化・最適化を実現する「EASI」という社内向けプラットフォームを開発しています。 そのプラットフォームの下に、デジタル広告のプランニング用のプロダクトや過去実績の確認用プロダクトなど、様々なプロダクトが存在しています。 ※ここからは各プロダクトを総称して「EASI プロダクト」と呼びます。 EASI プロダクト開発における課題 開発部では、開発パートナー様と一緒に EASI プロダクトの開発しています。あるプロダクトは開発部で設計・実装し、また別のプロダクトは開発パートナー様が
次のページ
このページを最初にブックマークしてみませんか?
『Dentsu Digital Tech Blog|note』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く