サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大そうじへの備え
treasure-data.hateblo.jp
はじめに ほとんど全ての会員制サービスには,顧客の「入会」と「退会」という概念があります。そして退会(ここでは離脱と呼びます)における分析は,それを防止するという目的において非常に重要です。本記事ではいくつかの「離脱分析」の手法を,トレジャーデータ+スプレッドシートだけで完結でき,かつ誰もが実践できる形でご紹介します。 「離脱分析」必要な最低限のデータセット 初めの2回で紹介する手法においては,分析に必要なデータセットはシンプルで汎用的なものです。最低限必要な項目は,「ユーザーID」「入会日時」「退会日時」この3つです。また,分析実行時にサービスを継続しているユーザーは退会日時の値は入っていないことになります。 今回は後々の分析にも備えて上記の項目以外に,もう少し多くの情報を持たせたデータ(これを raw_data と呼ぶことにします)を扱っていきます。本データでは「退会日」ではなく「最終
前回まで 6. GA で生データに近いものを取得する 6-1. Custom Dimension,Custom Metric について Custom Dimension,Custom Metric は GA アカウントの既定の Dimension と Metric とほとんど同一ですが,自分で作成するという点で異なります。GA で自動的にトラッキングされないデータを収集,解析するために使用できます。 6-1-1. 制限事項と注意事項 各プロパティごとに Custom Dimension のインデックスを 20,Custom Metric のインデックスを 20 利用できます。プレミアム アカウントの場合は,Custom Dimension のインデックスを 200,Custom Metric のインデックスを 200 利用できます。Custom Dimension を削除することはできませ
前回まで 5. 標準で取得できる項目とその活用方法について 5-1. Web 分析で用いられる主要なデータ項目 GA の標準設定(トラッキングコードがオリジナルのもの)においてでも,非常に多くのデータ項目を取得することができます。その一覧が Dimensions & Metrics Explorer にありますが,ここではその中でも有用な項目をピックアップしていきます。その前に, Dimension と Metric の概念を学習しましょう。 5-1-1. Dimension と Metric Dimesion は,ある Metric(集計値)を求める際の内訳を意味します。例えば「日次でのUU」「分単位のPV」「ユーザー毎の総課金額」とある場合,順に「日 - date」「分 - minute」「ユーザー - user_id」がディメンジョンとなります。 そのディメンジョンごとに合計,平均
前回まで 3. Google Analytics 上での設定 3-1. ログイン 次に GA にログインします。 3-2. Google APIs のサービスアカウントIDの接続許可 「Admin」→「User Management」より,このGAにアクセス許可のあるユーザーを登録します。先ほど作成したサービスアカウントID(今回の例では [email protected] )に「Read & Analyze」以上の権限を付与します。 これでサービスアカウント ID からのAPI を通じてのデータ取得が許可されました。次に GA のどのレポートを取得するのか, View ID を指定します。 3-3. データ取得する View の特定 GA からのレポートデータの取得には,まず取得対象の「View ID」を特定する必要があります。
前回まで 2. Google APIs 上での設定 2-1. ログイン ↑ 適切な Google アカウントで Google APIs にログインします。「適切なアカウント」とは,取得したい Google Analytics に API を通じてアクセスすることが許されているアカウントを意味します。 2-2. プロジェクトの作成 2-2-1. Project 新規作成 ↑ Projects ボタンから「Create project」を選択し,Data Connector で利用するためのプロジェクトを作成します。 ↑ 今回は「GA to TD」というプロジェクト名を与えています。 2-2-2. Service Account の新規作成 以下,「GA to TD」プロジェクト下で設定を進めて行きます。 ↑ まずは「Service Account」を新規作成します。このアカウントは後ほど G
1. アクセスログに対するトレジャーデータの試み 様々な業界で活用されているトレジャーデータですが,元祖 The ログと言えば「アクセスログ」に他なりません。トレジャーデータではこの歴史も古く,ライバルも多いこのアクセスログ分析の分野において,以下のようなユニークなアプローチを持っています。 1-1. Treasure Data JavaScript SDK Treasure Data JavaScript SDK (以下 Treasure JS SDK)は,Google Analytics(以下 GA) のユニバーサルアナリティクス(Googleタグマネージャ)と同じように,ページ内の Java Script 領域にトラッキングコードを埋め込むことで,リアルタイムのデータ収集を可能にするものです。Treasure JS SDK が GA をはじめとした他のトラッキングツールと決定的に異な
はじめに 本記事ではトレジャーデータともパートナーシップを持つダッシュボード「Datorama」を紹介していきます。 主に広告業界のマーケティングダッシュボードとして不動の地位を確立しつつある Datoramaは,独自の技術によってあらゆるマーケティングデータを統合することを可能にした,唯一無二のツールです。本記事では Datorama の主要な機能・概念を紹介するとともに,トレジャーデータと連携することによるシナジーについて解説していきます。 Datorama が持つ独自の機能とは? Datorama は他のダッシュボードに無い独自の機能・概念をもっています。 「Data Streams」であらゆる Web/広告サービス,テキストファイル,データベースベンダーからのデータ収集を一元化 「Total Connect」で API 不要で Twitter や Facebook, Google
はじめに 様々な BIツール,可視化ツールがひしめく近年において,2014年10月に Salesforce が満を持して「Wave」を基盤とするアナリティクスプラットフォームをローンチしました。その中の可視化ツール:Wave Analytics は可視化ツールとしては後発組ですが,まさにその名の通りこの世界に「Big Wave」を巻き起こす牽引役として台頭していく事は明らかです。 EC 分析事例 トレジャーデータでは,過去に多くの EC分析に関する記事を紹介してきましたが、EC分析でWaveを体感してみましょう! Treasure Data × Wave Analytics EC Demo from Takahiro Inoue ECデータセットはこれまでと同じ物を使用します。100万人の会員テーブル,1000万件の購買履歴テーブル,1億件のアクセスログテーブル,これらローデータをそのまま
はじめに 様々な BIツール,可視化ツールがひしめく近年において,2014年10月に Salesforce が満を持して「Wave」を基盤とするアナリティクスプラットフォームをローンチしました。その中の可視化ツール:Wave Analytics は可視化ツールとしては後発組ですが,まさにその名の通りこの世界に「Big Wave」を巻き起こす牽引役として台頭していく事は明らかです。 Wave Analytics とは? Wave Analytics のインパクトはダッシュボードを見れば明らかですが,以下のような SFDC ならではのメリットを提供してくれます。 Salesforce とのネイティブな統合 Salesforce とシームレスに連携するクラウドサービスを通じて,あらゆるソースのデータをすべて安全に提供します。 導入後はすぐに稼働でき,管理も容易です。 また,Wave Analyt
はじめに トレジャーデータが提供する Treasure Data JavaScript SDK は,他のアクセスログ収集ツールと同様に,HTML 内にタグを埋め込む事でアクセスに関する情報を収集することが可能です。 docs.treasuredata.com 本記事のイントロダクションはその1をご参照下さい。 分析フロー 今回は 分析フローでいうところの7と8のNYSOL, Graphviz パッケージを紹介し,9の可視化までに必要なコマンド群を解説します。 フローの1から6は以下をご覧ください。 7. NYSOLパッケージをインストール NYSOL http://www.nysol.jp/ NYSOL は,UNIX(Mac)環境で動作するデータ分析コマンドラインツールです。NYSOL は分析のテーマごとに「松」や「竹」など,パッケージが分かれていますが,そのどれもがもれなく非常に有用なパ
はじめに トレジャーデータが提供する Treasure Data JavaScript SDK は,他のアクセスログ収集ツールと同様に,HTML 内にタグを埋め込む事でアクセスに関する情報を収集することができます。 docs.treasuredata.com 前回はまず先にパス分析のアウトプットが何なのかを明示するため,いくつかのダイアグラムを紹介しました。 blog-jp.treasuredata.com 今回からはそのダイアグラムを得るための手順を紹介していきます。 分析フロー 実際にアクセスログからパス分析を経てダイアグラムを得るためには,上図のフローをとります。今回はトレジャーデータ内での処理(2.〜6.)をクエリを交えて説明します。次回では NYSOL, Graphviz パッケージを紹介し,可視化までに必要なコマンド群を解説します。 パス分析を行うための必要条件 本記事において
はじめに トレジャーデータが提供する Treasure Data JavaScript SDK は,HTML 内にタグを埋め込む事で簡単にアクセスに関する情報を収集することができます。 docs.treasuredata.com 既に既存のアクセスログ収集ツールが多くある中で,このトレジャーデータの SDK を活用するメリットは以下に挙げられます: データは随時トレジャーデータに集約されるので,ツールに縛られない自由な分析や可視化が可能。 トレジャーデータ上の他のデータと統合して分析がすぐに始められる。 トレジャーデータSDKユーザー向けに豊富なクエリテンプレートを用意。 トレジャーデータの強力な分析基盤の上でパス分析やバスケット分析などの発展的な分析が行える。 HTML内にて上記のタグを挿入することで,以下のカラム名をもったデータがトレジャーデータに集約されていきます。 td_versi
本特集では、Treasure Data環境で利用可能な機械学習ライブラリHivemallを利用した機械学習の実践方法を紹介します。世界のデータサイエンティストが腕を競うデータサイエンスコンペティションサイトKaggleの中から、実践的な課題を扱っていきます。 1. はじめに 第一回は小売業の売り上げ予測するタスクであるRossmann Store Salesコンペティションを課題に用います。アルゴリズムとしては、決定木を利用したアンサンブル学習手法の一種であるRandom Forest回帰を利用します*1。 Rossmannはヨーロッパの7カ国で3,000以上の店舗を展開する薬局チェーンです。各店舗のマネージャーは6週間先までの店舗の売り上げを予測することがタスクとして課されています。各店舗の売り上げはプロモーション活動、競合要素、学校の休みや祝日、季節性、地域性など様々な要因に左右されま
はじめに 「トレジャーデータで実践:Path 分析」シリーズでは,過去にWeb,広告,リアル店舗でのログを元に,コンバージョンパステーブルの作成例とその分析事例を紹介していました。 blog-jp.treasuredata.com それに続く本記事では,より具体的かつ汎用的な分析事例として,コンバージョンパスを分析インプットとした時に,どんな分析アウトプットが出せるか,について以下の3つを紹介する事にします。 頻出パターンマイニング コンバージョンパス ダイアグラム(今回) 決定木モデル 上記の資料はパス分析の概念から始まり,トレジャーデータにおけるデータの持たせ方から分析アウトプットまで,パス分析のいろはを詳細に述べた資料です。 遷移ダイアグラム 遷移分析は,コンバージョンパスがどのようなノード遷移でコンバージョンに至ったのかを求めます。遷移ダイアグラムとは,コンバージョンしたユーザーの
はじめに 「トレジャーデータで実践:Path 分析」シリーズでは,過去にWeb,広告,リアル店舗でのログを元に,コンバージョンパステーブルの作成例とその分析事例を紹介していました。 blog-jp.treasuredata.com それに続く本記事では,より具体的かつ汎用的な分析事例として,コンバージョンパスを分析インプットとした時に,どんな分析アウトプットが出せるか,について以下の3つを紹介する事にします。 頻出パターンマイニング(今回) コンバージョンパス ダイアグラム 決定木モデル 上記の資料はパス分析の概念から始まり,トレジャーデータにおけるデータの持たせ方から分析アウトプットまで,パス分析のいろはを詳細に述べた資料です。 コンバージョンパステーブル ここで,生データとコンバージョンマスタテーブルを元に,トレジャーデータ上で作成するコンバージョンパステーブル(パス分析のインプットと
はじめに トレジャーデータでは様々なデータソースに対するデータコレクターを用意していますが,この度その中の Client SDK が日本ユーザーにとって大幅にパフォーマンスが改善されることになりましたのでご紹介します。 ↑ トレジャーデータでは,4種類のデータコレクターを用意しています。 Client SDKs ↑ その中でも Client SDK は,iOSやAndroid プラットフォーム上の様々な端末にインストールすることが可能で,各端末でイベントが発生された都度(またはある程度バッファリングした上で),トレジャーデータサービスのスケーラブルな受信サーバーに送信され,ストレージに格納されていきます。 JavaScript SDK ↑ また,JavaScript SDK は,ホームページ上にJSのトラッキングタグを埋め込む事ができ,ユーザーのサイト回遊ログをリアルタイムにトラッキングす
はじめに 2015/10/14 にデータエンジニアのためのビッグイベント,Developers Summit Autumn が開催されました。今回のテーマは「データを巡るテクノロジーの冒険」 ,データ関連のテクノロジーにフォーカスしています。このイベントに弊社のソフトウェアエンジニアである田籠(@tagomoris)が登壇しました。今回は彼の発表内容について,多くの皆様に知ってもらうべく,解説していきます。 トレジャーデータ 田籠 聡 【データドリブン開発時代の技術とその選びかた】 Data-Driven Development Era and Its Technologies from SATOSHI TAGOMORI 要旨 ビッグデータやデータサイエンスといった用語が頻繁に用いられるようになって久しくなりました。データを中心とした開発も実際に各企業で行われるようになっておりそれはますま
大盛況の内に閉幕した第一回Hivemall Meetupを受けて,第二回を開催することになりました。まだ参加枠が残っておりますので,お時間のある方は是非ともご参加下さい。 イベント会場であるdots.は渋谷駅すぐそばにあります。 開催内容 イベント: 第二回 Hivemall Meetup 開催日時: 2015/10/20(火) 19:00 〜 22:30 開催場所: イベント&コミュニティスペース dots. 住 所: 東京都渋谷区宇田川町20-17 NOF渋谷公園通りビル 8F 定 員: 定員数 : 200人 申込数 : 122人 残席数 : 78人 参 加 費: 無料 タイムスケジュール 時間講演内容 18:30 - 受付 19:00 - 19:05 イントロダクション Treasure Data Inc. 油井氏 - @myui 19:05 - 19:45 Hivemall
はじめに クラウド関連技術の進化とその普及により、データ分析に必要なコストは大きく低減しました。以前であれば数千万〜数億円かけて構築した分析インフラも、今では月額数十万程度で簡単に立ち上げることが出来ます。本資料では、スモールスタートで「データファースト」を推進する分析プロジェクトの始め方について、詳細をご紹介していきます。現在データ分析に携わっているものの様々な事情でなかなか本格始動出来ない方にとって、少しでも助力になれば幸いです。 一般的なデータ分析プロセス 一般的に「データ分析」をプロジェクトとして始めるにあたっては、会社や上司から「目標」や「仮説」を求められることが多いかと思います。それが明確であるがゆえにデータ分析が活き、その「確証」(または否定)を元にビジネスプロセスが回っていくと考えられるからです。 データ分析を始めるには相応のコストと時間がかかりますので、きちんとビジネスプ
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 『「横断」で極めるユーザー行動分析シリーズ』は,様々な業界におけるユーザーの行動分析を、複数のデータをユーザーIDなどで紐付けて横串に(横断的に)見ていく方法・事例をご紹介するものです。 シリーズ①となる今回は,ゲームと小売業界にフォーカスを当てていきます。 はじめに オンラインゲーム業界で日々行われている分析手法と小売業界におけるそれを比較してみると、意外にも共通するポイントが多いことに驚きます。背景には、従来の「面」を中心とした大略的な分析のみならず、「点」である個別のユーザーに焦点を当てたより詳細な分析の重要性が増している状況があります。 本資料では、各々の業界で行われている代表的な分析手法とその特徴を例示し、共通項として浮かび上がるデータ分析のエッセンスについてご紹介していきます。 オンラインゲーム業界にお
はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。従来トレジャーデータのバルクインポート機能は「Client to Server」型で,別のサーバー上にあるデータをクライアントにいったん戻してアップロードするというものでした。 もちろんこれ自身とても便利な機能でしたが,サーバー上のあちこちに散在する様々なデータソースを一元的に管理でき,さらにクライアント側の処理を大幅に軽減することができれば,それは従来に比べると「革命」と呼べるくらいに強いインパクトとなります。 Data Connecter が「Server to Server」型のデータバルクロードを実現 トレジャーデータが提供する「Data Connector」は,クライアント側の処理をトレジャーデータがホスティングすることによって「Server to Server」型のバルクロードを可能にします。
はじめに トレジャーデータでは,あらゆるデータソースにリーチするデータ収集ツールを用意していますが,新しい収集機能として「Data Connector」を順次リリースする予定です。 ↑ 従来の収集ツールに関しては過去記事をご覧下さい。 何が新しいのか? さて,今回紹介する「Data Connector for Amazon S3」はその名の通り,Amazon S3上のデータをトレジャーデータに設定のみで「バルクデータロード」する機能です。この機能は先日オープンソースとしてリリースされた Embulk をベースにしたものです。 Embulk については以下の過去記事をご参照ください。 従来の Bulk Import 機能は「Client to Server」型 従来のトレジャーデータの「バルクインポート」機能は,クライアント上の巨大なデータに対して,トレジャーデータへ安全かつ効率良く実行する
はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 前回ではマーケッターが1つのプログラム(イベントやキャンペーンのことをMarketoではプログラムと呼びます。)を回す方法について具体的にご紹介しました。 ここまでの話だと,マーケティングオートメーションはマーケティングの効率化ツールとして捉える方も多いと思います。また「オートメーション」の意味を,たくさんのプログラムを楽に運用管理できるという所にあると捉える方も少なくないでしょう。 しかし,「マーケティングオートメーション」をそのように軽んじておられる人が多いとすれば,それは残念なことです。マーケティングオートメーションの神髄はリードの管理をスコアリングによって行う「リードスコアリング」にあります。今回は Marketo のリード管理に関するお話です(スコアリングの詳細は次回)。 マーケティングの役割と
はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 前回では「マーケティングオートメーションツール」がマーケッター自身がエンジニアや分析者の手をできるだけ借りずに,自力でデータドリブンマーケティングを回していくことを最大限サポートしてくれるものとして紹介しました。また,本シリーズにおいてはトレジャーデータも活用している Marketo をベースに話を進めています。 さて今回は1つのイベント・キャンペーンについて,Marketo でどのようにワークフローを作っていくかについてお話します。前回マーケティングのプロモーション活動としていくつかリストアップしましたが, メールマーケティング ランディングページ分析 キャンペーン管理 ソーシャルマーケティング プレスリリース管理 マーケティング効果検証 これらのプロモーションは全て Marketo の Asset と
はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 「マーケティングオートメーション」という何とも都合の良い言葉をはじめに聞いた人は,懐疑的な印象を持たれるかもしれません。私もそうでした。しかしながら,実際に社内で導入して実行してくと,マーケティングオートメーションがいかに便利で重要なものであるかを思い知らされる結果となりました。 本記事ではマーケティングオートメーションとは何か,その役割は何か,どう使っていったら良いかなど,マーケティングオートメーションについて入門から深い理解を得るところまでを, Marketo というツールを使って紹介していきます。 また,本記事はマーケティングサイドからではなく,データサイエンティストサイドからの視点で記述している事にご注意ください。 マーケティングとデータ分析の関係 まず始めに,マーケティングの役割とそのに関わるデ
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 ↑ 理論編は少し難解ですが,知っておいて損はありません。 さて,本シリーズの最後として他のテスト(統計的仮説検定)の事例を紹介します。 全ての問題で共通においている前提 ※ 検定方向ついて 以下で紹介するテストは全て両側検定としている。両側検定についてはこちらを参照して下さい。両側検定にする理由は,(1) 片側より棄却されにくいこと,(2) 信頼区間を同時に求める際に,棄却域と信頼区間が交わるような矛盾を極力避けるため。(ただし信頼区間についてはここでは取り上げません。) ※ 有意水準について 有意水準は全て 0.05 としています。 ※ サンプルサイズについて 計算する統計量とそれの従う分布(特に標準正規分布か t 分布かで)はサンプルサイズによって異なってきます。ここでは「大標本」を n > 100 または
はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 本記事ではテストの概念および解釈の方法について説明します。はじめに統計学を強力にサポートする確率論の「大数の弱法則」「中心極限定理」を紹介し,次に背理法に基づくテストの概念を紹介します。 Ⅰ. 統計学の基本スタンスについて 私達が手元に得られるデータというのは,たいていの場合が全体(母集団)の中の一部(標本)である事が多いです。例えば労働調査データでは国民全員のデータでは無く,その中の10万人を独立ランダムにピックアップしたものです。 また,母集団の中からどのようなルール(分布)に従って標本が得られるのかもわからないことが多いです。例えば(必ずしも平等でない)コイン投げでは,その母集団は {表, 裏} であることは知っていても表がどれくらいの確率で現れるのかはわかりません。 世の中の多くの事象というのはこ
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 実践編その1と2では会員/非会員のカテゴリごとの平均購買単価に違いがあるのかについて,網羅的にA/Bテストを実施しました。今回は前回と事例で似ている様で扱いが異なる事例を紹介します。 実例A/Bテスト2 Q. (対応のあるデータ) あるECストアの2011年(A)と2012年(B)のサブカテゴリごとの売上について,差があるのか比較をしたい。 さて,今回の事例が前回と異なるところを考えてみましょう。前回は会員A/非会員Bという全く交わる事の無いAとBの比較を行いました。一方で今回紹介する2011年と2012年の売上比較というのは,メンバー個々の2011年の購入額と2012年の購入額の総和で求められます。 メンバー単位で見た場合,同一のユーザーが2011年と2012年に購入しているという意味で2011年と2012年の結
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 はじめに 今回は,具体的なデータを事例にしてA/Bテストをわかりやすく紹介します。本記事では理論的なところは控えめに,手順とポイントについて詳しく紹介していきます。実のところ,手順とポイントだけおさえておけば,理論は知らなくても全く問題ありません。また,心の準備編でも紹介しましたが,最終的にはAとBに差違があるのかは, 検定によって求められた統計量に基づいて人間が判断する = 人がテスト結果ときちんと向き合う ことの習慣化が重要なので,テストを実施するにはできるだけ心理的ハードルは低い方がむしろ良いのかもしれません。 A/Bテストとは? A/Bテストは統計的仮説検定の枠組みの中で,「2つの母平均の差の検定」に該当するものです。独立して実施された結果,AとBに統計的見地から見て,違い(これを「有意な差」とよびます)が
次のページ
このページを最初にブックマークしてみませんか?
『トレジャーデータ(Treasure Data)ブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く