Google Cloud Platform Japan 公式ブログ: 9月 2016

新しい Firebase プラットフォームに備わるクラウド統合機能のうち、私が特に気に入っているのは、カスタム分析のために Firebase Analytics から Google BigQuery に生データを送れる機能です。このカスタム分析は、Firebase Analytics イベントに渡されたカスタムパラメータにもアクセスでき、iOS および Android の両バージョンのデータ集計で特に役に立ちます。

以下では、この強力な組み合わせによって何ができるのかを紹介します。

BigQuery へのエクスポートの仕組み

エクスポートされた各テーブルには、Firebase Analytics が自動的にキャプチャしたユーザーのアクティビティおよびデモグラフィックデータと、アプリの中でキャプチャされたカスタムイベントが含まれています。そのため、クロスプラットフォームアプリの 1 週間分のデータをエクスポートした場合、BigQuery プロジェクトはそれぞれ 7 個のテーブルを持つ 2 つのデータセットを持つことになります。

データの概要

Firebase Analytics がエクスポートするテーブルのスキーマはどれも同じです。私たちは以下のサンプルクエリを実行するため、サンプルユーザーデータで 2 つのデータセット（iOS 用と Android 用）を作りました。このデータセットは、iOS と Android の両プラットフォームに対応したサンプルゲームアプリのためのものです。それぞれのデータセットには 7 個のテーブル、つまり 1 週間分のアナリティクスデータが含まれています。

次のクエリは、ある 1 日を対象に、iOS 版アプリの利用状況に関する基本的なデモグラフィックとデバイスデータを返します。

SELECT
  user_dim.app_info.app_instance_id,
  user_dim.device_info.device_category,
  user_dim.device_info.user_default_language,
  user_dim.device_info.platform_version,
  user_dim.device_info.device_model,
  user_dim.geo_info.country,
  user_dim.geo_info.city,
  user_dim.app_info.app_version, 
  user_dim.app_info.app_store,
  user_dim.app_info.app_platform
FROM
  [firebase-analytics-sample-data:ios_dataset.app_events_20160601]

Firebase Analytics からエクスポートされる BigQuery テーブルのスキーマはすべて同じなので、ここで挙げたクエリのデータセットやテーブル名を皆さんのプロジェクトのものに置き換えれば、皆さんの Firebase Analytics データに対して実行できます。

このスキーマにはユーザーデータとイベントデータが含まれています。ユーザーデータはすべて Firebase Analytics が自動的にキャプチャするのに対し、イベントデータはアプリに追加されたカスタムイベントによって作られます。

ユーザーデータ

ユーザーレコードには、ユーザーごとに一意なアプリインスタンス ID（このスキーマの user_dim.app_info.app_instance_id ）とともに、位置、デバイス、アプリのバージョンのデータが含まれています。

Firebase コンソールには、アプリの iOS 版と Android 版のアナリティクス向けに用意された別々のダッシュボードがあります。BigQuery では、両プラットフォームのユーザーが世界中のどこからアプリにアクセスしているかを調べるためのクエリを実行できます。

次のクエリは、UNION ALL 演算子としてカンマが使える BigQuery の union 機能を使用しています。私たちのサンプルテーブルにおける行はユーザーが発生させたイベントごとに作られるため、各ユーザーがちょうど 1 回ずつ数えられるようにするために EXACT_COUNT_DISTINCT 関数を使っています。

SELECT
  user_dim.geo_info.country as country,
  EXACT_COUNT_DISTINCT( user_dim.app_info.app_instance_id ) as users
FROM
  [firebase-analytics-sample-data:android_dataset.app_events_20160601],
  [firebase-analytics-sample-data:ios_dataset.app_events_20160601]
GROUP BY
  country
ORDER BY
  users DESC

また、使用言語や地理的な位置といった、ユーザーベースのさまざまなセグメントを表現するために定義した属性を格納する user_properties レコードも、ユーザーデータに含まれています。なお、Firebase Analytics はデフォルトで数種類のユーザープロパティをキャプチャするため、独自に定義できるプロパティは 25 個までです。

ユーザーの使用言語はデフォルトユーザープロパティの 1 つです。次のクエリを実行すれば、両プラットフォームを通じてユーザーがどの言語を使っているかがわかります。

SELECT
  user_dim.user_properties.value.value.string_value as language_code, 
  EXACT_COUNT_DISTINCT(user_dim.app_info.app_instance_id) as users,
FROM
  [firebase-analytics-sample-data:android_dataset.app_events_20160601],
  [firebase-analytics-sample-data:ios_dataset.app_events_20160601]
WHERE
  user_dim.user_properties.key = "language"
GROUP BY
  language_code
ORDER BY 
  users DESC

イベントデータ

次のクエリは、特定の 1 日間に Android 版アプリで発生した各イベントの回数を明らかにします。

SELECT 
  event_dim.name,
  COUNT(event_dim.name) as event_count 
FROM
  [firebase-analytics-sample-data:android_dataset.app_events_20160601]
GROUP BY 
  event_dim.name
ORDER BY 
  event_count DESC

他のタイプの値（たとえばアイテムの料金）がイベントと関連づけられている場合は、それをオプションの value パラメータとして渡すと、BigQuery でその値によるフィルタリングが可能です。

私たちのサンプルテーブルには spend_virtual_currency イベントがあります。そこで、次のクエリを実行すれば、ゲームのプレーヤーが一度にどれくらいの仮想通貨を消費するのかがわかります。

SELECT 
  event_dim.params.value.int_value as virtual_currency_amt,
  COUNT(*) as num_times_spent
FROM
  [firebase-analytics-sample-data:android_dataset.app_events_20160601]
WHERE
  event_dim.name = "spend_virtual_currency"
AND
  event_dim.params.key = "value"
GROUP BY
  1
ORDER BY 
  num_times_spent DESC

複雑なクエリ

両プラットフォームのアプリを使用して、特定の期間を対象とするクエリを実行したいときはどうすればよいでしょうか。Firebase Analytics データは日ごとにテーブルに分割されるので、BigQuery の TABLE_DATE_RANGE 関数を使えばこれを実現できます。

次のクエリは、1 週間の間にいくつの都市のユーザーがアクセスしているかを返します。

SELECT
  user_dim.geo_info.city,
  COUNT(user_dim.geo_info.city) as city_count 
FROM
TABLE_DATE_RANGE([firebase-analytics-sample-data:android_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP()),
TABLE_DATE_RANGE([firebase-analytics-sample-data:ios_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP())
GROUP BY
  user_dim.geo_info.city
ORDER BY
  city_count DESC

同様に、両プラットフォームにおけるスマートフォンとタブレットからのアクセス回数が、1 週間でどれだけなのかを比較するクエリも書くことができます。

SELECT
  user_dim.app_info.app_platform as appPlatform,
  user_dim.device_info.device_category as deviceType,
  COUNT(user_dim.device_info.device_category) AS device_type_count FROM
TABLE_DATE_RANGE([firebase-analytics-sample-data:android_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP()),
TABLE_DATE_RANGE([firebase-analytics-sample-data:ios_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP())
GROUP BY
  1,2
ORDER BY
  device_type_count DESC

少し複雑になりますが、次のクエリは、2 週間の間に発生した両プラットフォームのユニークユーザーイベントのレポートを生成するものです。ここでは、PARTITION BY と EXACT_COUNT_DISTINCT でユーザープロパティと user_dim.user_id フィールドを使用し、イベントレポートからユーザーの重複を取り除いています。

SELECT 
  STRFTIME_UTC_USEC(eventTime,"%Y%m%d") as date,
  appPlatform,
  eventName,
  COUNT(*) totalEvents,
  EXACT_COUNT_DISTINCT(IF(userId IS NOT NULL, userId, fullVisitorid)) as users
FROM (
  SELECT
    fullVisitorid,
    openTimestamp,
    FORMAT_UTC_USEC(openTimestamp) firstOpenedTime,
    userIdSet,
    MAX(userIdSet) OVER(PARTITION BY fullVisitorid) userId,
    appPlatform,
    eventTimestamp,
    FORMAT_UTC_USEC(eventTimestamp) as eventTime,
    eventName
    FROM FLATTEN(
      (
        SELECT 
          user_dim.app_info.app_instance_id as fullVisitorid,
          user_dim.first_open_timestamp_micros as openTimestamp,
          user_dim.user_properties.value.value.string_value,
          IF(user_dim.user_properties.key = 'user_id',user_dim.user_properties.value.value.string_value, null) as userIdSet,
          user_dim.app_info.app_platform as appPlatform,
          event_dim.timestamp_micros as eventTimestamp,
          event_dim.name AS eventName,
          event_dim.params.key,
          event_dim.params.value.string_value
        FROM
         TABLE_DATE_RANGE([firebase-analytics-sample-data:android_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP()),
TABLE_DATE_RANGE([firebase-analytics-sample-data:ios_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP())
), user_dim.user_properties)
)
GROUP BY
  date, appPlatform, eventName

同じアプリのデータが Google Analytics にある場合は、Google Analytics データを BigQuery にエクスポートし、Firebase Analytics からエクスポートされた BigQuery テーブルと JOIN することも可能です。

アナリティクスデータのビジュアライズ

データの BigQuery へのエクスポートによって、モバイルアプリデータから新しいインサイトを収集したら、Google Data Studio を使用してそれをイメージとして視覚化してみましょう。

Data Studio は、BigQuery テーブルを直接読み出せるだけでなく、上述したようなカスタムクエリにも対応します。Data Studio を使用すれば、データの構造に応じた形で、時系列図、棒グラフ、円グラフ、ジオマップなど、さまざまなタイプのグラフやチャートを生成できます。

最初に、ユーザーがアプリにアクセスするために使っているデバイスタイプ（スマートフォンかタブレット）をプラットフォームごとに比較する棒グラフを描いてみましょう。先ほどのスマートフォン対タブレットのクエリを直接 Data Studio にペーストすると、次のグラフが得られます。

このグラフを見ると、iOS ユーザーの場合は、スマートフォンよりもタブレットを使ってゲームをしている傾向が強いことが簡単にわかります。

もう少し複雑にして、前述したプラットフォームごとのイベント数を比較するクエリから、比較のための棒グラフを作ることもできます。

BigQuery プロジェクトと Data Studio の詳細な接続手順については、こちらの投稿を参照してください。

使ってみよう

Firebase を初めて使う方は、ここから始めてください。すでに Firebase でモバイルアプリを構築している方は、Firebase プロジェクトと BigQuery のリンクに関する詳細なガイドを参照してください。

疑問点については、BigQuery のクエリリファレンスと Stack Overflow の firebase-analytics、google-bigquery タグをご覧ください。そして、このブログで取り上げてほしいテーマがありましたら、ぜひこちらまでお寄せください。

* この投稿は米国時間 9 月 22 日、Developer Advocate である Sara Robinson によって投稿されたもの（投稿はこちら）の抄訳です。

- Posted by Sara Robinson, Developer Advocate

発表
新しい Firebase プラットフォームの一翼を担う Firebase Analytics は、iOS と Android アプリの利用状況に関するデータを自動的にキャプチャするとともに、カスタムアプリイベントの定義をサポートします。キャプチャされたデータは、Firebase コンソールのダッシュボードからアクセスできます。
新しい Firebase プラットフォームに備わるクラウド統合機能のうち、私が特に気に入っているのは、カスタム分析のために Firebase Analytics から Google BigQuery に生データを送れる機能です。このカスタム分析は、Firebase Analytics イベントに渡されたカスタムパラメータにもアクセスでき、iOS および Android の両バージョンのデータ集計で特に役に立ちます。
以下では、この強力な組み合わせによって何ができるのかを紹介します。

BigQuery へのエクスポートの仕組み

Firebase プロジェクトを BigQuery にリンクすると、Firebase は新しいテーブルを自動的に毎日、対応する BigQuery データセットにエクスポートするようになります。対象のアプリに iOS 版と Android 版の両方がある場合は、Firebase は各プラットフォームのデータを別々のデータセットにエクスポートします。
エクスポートされた各テーブルには、Firebase Analytics が自動的にキャプチャしたユーザーのアクティビティおよびデモグラフィックデータと、アプリの中でキャプチャされたカスタムイベントが含まれています。そのため、クロスプラットフォームアプリの 1 週間分のデータをエクスポートした場合、BigQuery プロジェクトはそれぞれ 7 個のテーブルを持つ 2 つのデータセットを持つことになります。

データの概要

SELECT
  user_dim.app_info.app_instance_id,
  user_dim.device_info.device_category,
  user_dim.device_info.user_default_language,
  user_dim.device_info.platform_version,
  user_dim.device_info.device_model,
  user_dim.geo_info.country,
  user_dim.geo_info.city,
  user_dim.app_info.app_version, 
  user_dim.app_info.app_store,
  user_dim.app_info.app_platform
FROM
  [firebase-analytics-sample-data:ios_dataset.app_events_20160601]

Firebase Analytics からエクスポートされる BigQuery テーブルのスキーマはすべて同じなので、ここで挙げたクエリのデータセットやテーブル名を皆さんのプロジェクトのものに置き換えれば、皆さんの Firebase Analytics データに対して実行できます。
このスキーマにはユーザーデータとイベントデータが含まれています。ユーザーデータはすべて Firebase Analytics が自動的にキャプチャするのに対し、イベントデータはアプリに追加されたカスタムイベントによって作られます。

ユーザーデータ

ユーザーレコードには、ユーザーごとに一意なアプリインスタンス ID（このスキーマの user_dim.app_info.app_instance_id ）とともに、位置、デバイス、アプリのバージョンのデータが含まれています。
Firebase コンソールには、アプリの iOS 版と Android 版のアナリティクス向けに用意された別々のダッシュボードがあります。BigQuery では、両プラットフォームのユーザーが世界中のどこからアプリにアクセスしているかを調べるためのクエリを実行できます。
次のクエリは、UNION ALL 演算子としてカンマが使える BigQuery の union 機能を使用しています。私たちのサンプルテーブルにおける行はユーザーが発生させたイベントごとに作られるため、各ユーザーがちょうど 1 回ずつ数えられるようにするために EXACT_COUNT_DISTINCT 関数を使っています。

SELECT
  user_dim.geo_info.country as country,
  EXACT_COUNT_DISTINCT( user_dim.app_info.app_instance_id ) as users
FROM
  [firebase-analytics-sample-data:android_dataset.app_events_20160601],
  [firebase-analytics-sample-data:ios_dataset.app_events_20160601]
GROUP BY
  country
ORDER BY
  users DESC

user_properties数種類のユーザープロパティ
ユーザーの使用言語はデフォルトユーザープロパティの 1 つです。次のクエリを実行すれば、両プラットフォームを通じてユーザーがどの言語を使っているかがわかります。

SELECT
  user_dim.user_properties.value.value.string_value as language_code, 
  EXACT_COUNT_DISTINCT(user_dim.app_info.app_instance_id) as users,
FROM
  [firebase-analytics-sample-data:android_dataset.app_events_20160601],
  [firebase-analytics-sample-data:ios_dataset.app_events_20160601]
WHERE
  user_dim.user_properties.key = "language"
GROUP BY
  language_code
ORDER BY 
  users DESC

イベントデータ

Firebase Analytics では、アプリ内でのアイテム購入やボタンクリックといったカスタムイベントのログを簡単に取得できます。イベントのログを出力するときは、Firebase Analytics にイベント名と 25 個までのパラメータを渡すと、Firebase Analytics が自動的にイベント発生回数をカウントします。
次のクエリは、特定の 1 日間に Android 版アプリで発生した各イベントの回数を明らかにします。SELECT event_dim.name, COUNT(event_dim.name) as event_count FROM [firebase-analytics-sample-data:android_dataset.app_events_20160601] GROUP BY event_dim.name ORDER BY event_count DESC
他のタイプの値（たとえばアイテムの料金）がイベントと関連づけられている場合は、それをオプションの value パラメータとして渡すと、BigQuery でその値によるフィルタリングが可能です。
私たちのサンプルテーブルには spend_virtual_currency イベントがあります。そこで、次のクエリを実行すれば、ゲームのプレーヤーが一度にどれくらいの仮想通貨を消費するのかがわかります。SELECT event_dim.params.value.int_value as virtual_currency_amt, COUNT(*) as num_times_spent FROM [firebase-analytics-sample-data:android_dataset.app_events_20160601] WHERE event_dim.name = "spend_virtual_currency" AND event_dim.params.key = "value" GROUP BY 1 ORDER BY num_times_spent DESC

複雑なクエリ

両プラットフォームのアプリを使用して、特定の期間を対象とするクエリを実行したいときはどうすればよいでしょうか。Firebase Analytics データは日ごとにテーブルに分割されるので、BigQuery の TABLE_DATE_RANGE 関数を使えばこれを実現できます。
次のクエリは、1 週間の間にいくつの都市のユーザーがアクセスしているかを返します。

SELECT
  user_dim.geo_info.city,
  COUNT(user_dim.geo_info.city) as city_count 
FROM
TABLE_DATE_RANGE([firebase-analytics-sample-data:android_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP()),
TABLE_DATE_RANGE([firebase-analytics-sample-data:ios_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP())
GROUP BY
  user_dim.geo_info.city
ORDER BY
  city_count DESC

SELECT
  user_dim.app_info.app_platform as appPlatform,
  user_dim.device_info.device_category as deviceType,
  COUNT(user_dim.device_info.device_category) AS device_type_count FROM
TABLE_DATE_RANGE([firebase-analytics-sample-data:android_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP()),
TABLE_DATE_RANGE([firebase-analytics-sample-data:ios_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP())
GROUP BY
  1,2
ORDER BY
  device_type_count DESC

SELECT 
  STRFTIME_UTC_USEC(eventTime,"%Y%m%d") as date,
  appPlatform,
  eventName,
  COUNT(*) totalEvents,
  EXACT_COUNT_DISTINCT(IF(userId IS NOT NULL, userId, fullVisitorid)) as users
FROM (
  SELECT
    fullVisitorid,
    openTimestamp,
    FORMAT_UTC_USEC(openTimestamp) firstOpenedTime,
    userIdSet,
    MAX(userIdSet) OVER(PARTITION BY fullVisitorid) userId,
    appPlatform,
    eventTimestamp,
    FORMAT_UTC_USEC(eventTimestamp) as eventTime,
    eventName
    FROM FLATTEN(
      (
        SELECT 
          user_dim.app_info.app_instance_id as fullVisitorid,
          user_dim.first_open_timestamp_micros as openTimestamp,
          user_dim.user_properties.value.value.string_value,
          IF(user_dim.user_properties.key = 'user_id',user_dim.user_properties.value.value.string_value, null) as userIdSet,
          user_dim.app_info.app_platform as appPlatform,
          event_dim.timestamp_micros as eventTimestamp,
          event_dim.name AS eventName,
          event_dim.params.key,
          event_dim.params.value.string_value
        FROM
         TABLE_DATE_RANGE([firebase-analytics-sample-data:android_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP()),
TABLE_DATE_RANGE([firebase-analytics-sample-data:ios_dataset.app_events_], DATE_ADD('2016-06-07', -7, 'DAY'), CURRENT_TIMESTAMP())
), user_dim.user_properties)
)
GROUP BY
  date, appPlatform, eventName

アナリティクスデータのビジュアライズ

データの BigQuery へのエクスポートによって、モバイルアプリデータから新しいインサイトを収集したら、Google Data Studio を使用してそれをイメージとして視覚化してみましょう。
Data Studio は、BigQuery テーブルを直接読み出せるだけでなく、上述したようなカスタムクエリにも対応します。Data Studio を使用すれば、データの構造に応じた形で、時系列図、棒グラフ、円グラフ、ジオマップなど、さまざまなタイプのグラフやチャートを生成できます。
最初に、ユーザーがアプリにアクセスするために使っているデバイスタイプ（スマートフォンかタブレット）をプラットフォームごとに比較する棒グラフを描いてみましょう。先ほどのスマートフォン対タブレットのクエリを直接 Data Studio にペーストすると、次のグラフが得られます。

もう少し複雑にして、前述したプラットフォームごとのイベント数を比較するクエリから、比較のための棒グラフを作ることもできます。

こちらの投稿

使ってみよう

Firebase を初めて使う方は、ここから始めてください。すでに Firebase でモバイルアプリを構築している方は、Firebase プロジェクトと BigQuery のリンクに関する詳細なガイドを参照してください。
疑問点については、BigQuery のクエリリファレンスと Stack Overflow の firebase-analytics、google-bigquery タグをご覧ください。そして、このブログで取り上げてほしいテーマがありましたら、ぜひこちらまでお寄せください。
* この投稿は米国時間 9 月 22 日、Developer Advocate である Sara Robinson によって投稿されたもの（投稿はこちら）の抄訳です。

- Posted by Sara Robinson, Developer Advocate

株式会社プレイドの導入事例： BigQuery と Bigtable への移行で理想的なリアルタイム処理を実現

2016年9月16日金曜日

■ 写真左から

株式会社プレイド

Technology Officer　牧野祐己さん
Chief Engineer　後藤圭史さん
Co-Founder and CTO　柴山直樹さん

■ 利用中の Google Cloud Platformサービス

Google BigQuery、Google Bigtable など

『Web 上では店頭のようにお客様の動向を確認した上でのリアルタイムな接客は不可能』。それは改めて確認するまでもない“常識”でした。その常識を覆すサービスとして、今、EC サイト運営者などを中心に話題となっているのが、株式会社プレイド独自のウェブ接客プラットフォーム「KARTE」です。このサービスはサイト来訪者の行動データを解析・蓄積し、それをリアルタイムにサイト運営者に届けることで、ウェブサイト越しの接客を可能にするというもの。EC サイトでのリピート促進から、旅行サイトでの予約率アップ、不動産サイトでの問い合わせ件数アップなど、既に多くのウェブサイトの背後で、KARTE が稼働しています。

(KARTE のインターフェイス)

「昨年 3 月のリリース以降、EC サイトを中心に、人材派遣、不動産、金融、メディアなど、幅広い業種で採用が進んでいます。サービス開始から一周年、今年 2 月末の時点で 845 社に導入していただき、その後も順調に導入社数は増えています。解析したユニークユーザー数は 4 億にも達しました」と胸を張るのは、株式会社プレイドの Chief Engineer、後藤圭史さん。その開発は 2013 年夏頃からスタートし、その当時は Google Cloud Platform がまだ国内で大きなプレゼンスを持っていなかったことから、他のクラウドプラットフォーム上で構築することを選択されたということです。

ところがサービスが拡大していくにつれ、その維持コストが馬鹿にならない金額へと膨れあがっていきます。特にデータベースシステムの利用料金が想定を越えて膨らみ始めたのです。

「何より困ったのが、コストの問題以上に、思ったようなパフォーマンスが出ないということ。設定値の半分もでないことはざらで、シーンによっては 100 分の 1 にも及ばないということすらありました。リアルタイムを売りにした解析サービスを提供しているのに、これでは話になりません。早急に対策を考える必要がありました」（株式会社プレイド Technology Officer 牧野祐己さん）

そんな中、いくつかの選択肢の中で、想定を越える結果を得られたのが Google BigQuery だったそうです。

「BigQuery が良さそうだと言うことが分かり、まず手始めに、契約企業様に毎月末に提出する毎月の利用状況(金額)集計に使ってみました。そしてこれが大成功。想像以上のパフォーマンスがでて、これだ！と思いましたね。現在ではこれをお客様の側で利用する管理画面にも適用。お客様がリアルタイムに配信状況を確認できるようになりました。ほか、多くの処理を BigQuery に置き換え始めています」（株式会社プレイド Co-Founder and CTO 柴山直樹さん）

それまではサービスのレスポンス速度を優先するため、集計のリアルタイム性を妥協していた面もあったそうですが、BigQuery を使うようになってからはそのどちらも両立できるように。また、もちろん費用についても劇的に改善したそうです。

「とは言え、効率的に回していくための工夫は必要。使わないデータは入れない、カラムをしっかり切る、アプリケーション側で使うスキーマを自動的に書き込むモジュールを作るなど、必要な時期の、必要なデータだけを参照できるようにしています」（牧野さん）

また、BigQuery に加え、Google Bigtable も、KARTE のサービス品質向上に貢献。KARTE では、サイトを訪れているユーザーの行動データ（来訪回数や購入金額など）を個別に集計・リアルタイムに表示する機能があるのですが、そこではBigtable が使われています。

「新しくイベントが発生した際、データベースをコンマ数秒で書き換える必要があるのですが、こうしたそれなりに大きな統計情報を高速に出し入れできるのがBigtable のいいところ。BigQuery でも同じような事ができるのですが、ここはレイテンシの少ない Bigtable を利用しています」（牧野さん）

なお、気になる移行の手間についても、大きなトラブルはほとんどなかったそうです。

「この手の移行作業では、やってみたら思ったようにパフォーマンスがでなくて、トライ＆エラーを繰り返して正解を見つけていくというのが普通なのですが、Google Cloud Platform への移行に関しては、やってみたら思った以上にパフォーマンスが出て驚くということの繰り返し（笑）。最初の置き換え作業は 1 週間程度で無事完了しています」（柴山さん）

「開発者としてうれしかったのがドキュメントが完璧だったこと。実際にどのような仕組みで動いているのかや、パフォーマンスを上げるためのアドバイスまで記載されていて、非常に助かりました。それまで使っていたクラウドプラットフォームはブラックボックス感がとても強かったのですが、Google Cloud Platform はとてもオープン。信頼できると思いました」（牧野さん）

「とは言えまだ、移行の第一ステップが終わったばかり。本格的な移行はこれからです。現在はもともと使っていたクラウドプラットフォームと Google Cloud Platform の間の通信コストが馬鹿にならない金額になってしまっているので、早急にこれらを Google に移行していく予定です。移行が完了した部分でパフォーマンス、コスト面が大幅改善することが分かっているので、他のところでもそれが起きることを期待しています」（後藤さん）

「ウェブ接客」というワーディングで、Web 上でのリアルタイム接客を実現するプラットフォーム「KARTE（カルテ）」を提供する株式会社プレイド。2015 年 3 月のリリースからわずか 1 年半で 1,000 社を越える導入実績を達成した同サービスが、今、Google Cloud Platform への乗り換えを進めています。

■ 写真左から株式会社プレイド

Technology Officer　牧野祐己さん

Chief Engineer　後藤圭史さん

Co-Founder and CTO　柴山直樹さん

■ 利用中の Google Cloud Platformサービス Google BigQuery、Google Bigtable など『Web 上では店頭のようにお客様の動向を確認した上でのリアルタイムな接客は不可能』。それは改めて確認するまでもない“常識”でした。その常識を覆すサービスとして、今、EC サイト運営者などを中心に話題となっているのが、株式会社プレイド独自のウェブ接客プラットフォーム「KARTE」です。このサービスはサイト来訪者の行動データを解析・蓄積し、それをリアルタイムにサイト運営者に届けることで、ウェブサイト越しの接客を可能にするというもの。EC サイトでのリピート促進から、旅行サイトでの予約率アップ、不動産サイトでの問い合わせ件数アップなど、既に多くのウェブサイトの背後で、KARTE が稼働しています。

(KARTE のインターフェイス) 「昨年 3 月のリリース以降、EC サイトを中心に、人材派遣、不動産、金融、メディアなど、幅広い業種で採用が進んでいます。サービス開始から一周年、今年 2 月末の時点で 845 社に導入していただき、その後も順調に導入社数は増えています。解析したユニークユーザー数は 4 億にも達しました」と胸を張るのは、株式会社プレイドの Chief Engineer、後藤圭史さん。その開発は 2013 年夏頃からスタートし、その当時は Google Cloud Platform がまだ国内で大きなプレゼンスを持っていなかったことから、他のクラウドプラットフォーム上で構築することを選択されたということです。

ところがサービスが拡大していくにつれ、その維持コストが馬鹿にならない金額へと膨れあがっていきます。特にデータベースシステムの利用料金が想定を越えて膨らみ始めたのです。「何より困ったのが、コストの問題以上に、思ったようなパフォーマンスが出ないということ。設定値の半分もでないことはざらで、シーンによっては 100 分の 1 にも及ばないということすらありました。リアルタイムを売りにした解析サービスを提供しているのに、これでは話になりません。早急に対策を考える必要がありました」（株式会社プレイド Technology Officer 牧野祐己さん）そんな中、いくつかの選択肢の中で、想定を越える結果を得られたのが Google BigQuery だったそうです。「BigQuery が良さそうだと言うことが分かり、まず手始めに、契約企業様に毎月末に提出する毎月の利用状況(金額)集計に使ってみました。そしてこれが大成功。想像以上のパフォーマンスがでて、これだ！と思いましたね。現在ではこれをお客様の側で利用する管理画面にも適用。お客様がリアルタイムに配信状況を確認できるようになりました。ほか、多くの処理を BigQuery に置き換え始めています」（株式会社プレイド Co-Founder and CTO 柴山直樹さん）

それまではサービスのレスポンス速度を優先するため、集計のリアルタイム性を妥協していた面もあったそうですが、BigQuery を使うようになってからはそのどちらも両立できるように。また、もちろん費用についても劇的に改善したそうです。「とは言え、効率的に回していくための工夫は必要。使わないデータは入れない、カラムをしっかり切る、アプリケーション側で使うスキーマを自動的に書き込むモジュールを作るなど、必要な時期の、必要なデータだけを参照できるようにしています」（牧野さん）また、BigQuery に加え、Google Bigtable も、KARTE のサービス品質向上に貢献。KARTE では、サイトを訪れているユーザーの行動データ（来訪回数や購入金額など）を個別に集計・リアルタイムに表示する機能があるのですが、そこではBigtable が使われています。「新しくイベントが発生した際、データベースをコンマ数秒で書き換える必要があるのですが、こうしたそれなりに大きな統計情報を高速に出し入れできるのがBigtable のいいところ。BigQuery でも同じような事ができるのですが、ここはレイテンシの少ない Bigtable を利用しています」（牧野さん）

なお、気になる移行の手間についても、大きなトラブルはほとんどなかったそうです。「この手の移行作業では、やってみたら思ったようにパフォーマンスがでなくて、トライ＆エラーを繰り返して正解を見つけていくというのが普通なのですが、Google Cloud Platform への移行に関しては、やってみたら思った以上にパフォーマンスが出て驚くということの繰り返し（笑）。最初の置き換え作業は 1 週間程度で無事完了しています」（柴山さん）「開発者としてうれしかったのがドキュメントが完璧だったこと。実際にどのような仕組みで動いているのかや、パフォーマンスを上げるためのアドバイスまで記載されていて、非常に助かりました。それまで使っていたクラウドプラットフォームはブラックボックス感がとても強かったのですが、Google Cloud Platform はとてもオープン。信頼できると思いました」（牧野さん）「とは言えまだ、移行の第一ステップが終わったばかり。本格的な移行はこれからです。現在はもともと使っていたクラウドプラットフォームと Google Cloud Platform の間の通信コストが馬鹿にならない金額になってしまっているので、早急にこれらを Google に移行していく予定です。移行が完了した部分でパフォーマンス、コスト面が大幅改善することが分かっているので、他のところでもそれが起きることを期待しています」（後藤さん）

イミュータブルエンティティを Cloud Datastore 上に実装する

2016年9月15日木曜日

注 : 今回の執筆者は Streak.com の共同創業者 Aleem Mawani 氏です。Streak.com は Google Cloud Platform のお客様で、Google Apps に対応した Streak の CRM ソリューションは全面的に Google プロダクト（Gmail、Google App Engine、Google Cloud Datastore）上に構築されています。この記事では、Cloud Datastore のオブジェクトストレージシステムに Streak がどのように高度な機能を追加したかを知ることができます。
Streak は、Gmail に直接組み込まれるフル機能の CRM ソリューションです。Google Cloud Platform 上に（Google App Engine を最も活用して）構築されており、Google Cloud Datastore にテラバイト（TB）規模のユーザーデータを保存しています。

Cloud Datastore は私たちのプライマリデータベースです。そのスケーラビリティや一貫したパフォーマンス、フルマネージド管理にとても満足しています。

しかし、私たちはいくつかの分野で機能が物足りなくなりました。ユーザーがデータを更新するたびに、データベースエンティティを新しいコンテンツで上書きするのではなく、これらのバージョンをすべて保存し、それらに簡単にアクセスできるようにしたかったのです。つまり、すべてのデータをイミュータブル（不変）にする方法が欲しいと考えたわけです。

この投稿では、どのような場合にイミュータブルエンティティを使いたくなるのか、私たちがどのようなアプローチでそれらを Cloud Datastore 上に実装したのかを説明します。
私たちがイミュータブルエンティティを重要と考えた理由は次のとおりです。

私たちはニュースフィードスタイルの UI を簡単に実装できる方法を求めていました。一般的なニュースフィードは、エンティティが時間の経過とともにどのように変化したかを、グラフィカルなフォーマットでユーザーに表示します。従来、私たちは 1 つのエンティティの異なるバージョン間の差分を記録するために、独立したサイドエンティティを保存していました。こうしたサイドエンティティをクエリして、ニュースフィードをレンダリングしていたのです。しかし、このようなサイドエンティティは設計上、エラーが起こりやすく、メンテナンスが面倒でした。たとえば、エンティティに新しいプロパティを追加したときは、サイドエンティティにも忘れずに追加する必要がありました。特定のデータをサイドエンティティに追加し忘れると、後で必要になったときにそのデータを再構築する方法はなく、そのデータは永久に失われました。

エンティティ “Contact” は、ユーザーの連絡先に関するデータを保存します。イミュータブルエンティティとして実装されているので、連絡先が時間とともにどのように変わってきたかを示す履歴を簡単に生成できます。
イミュータブルエンティティを持つことで、ユーザーエラーからのリカバリが非常に簡単になります。ユーザーはデータを前のバージョンにロールバックでき、うっかり削除してしまったようなデータをリカバリすることもできます（私たちが削除操作をどのように実装したかについては後述します）¹。
デバッグが容易になる可能性が高まります。エンティティが時間とともにどのように変化し、現在の状態になったのかがわかると、便利な場合がよくあります。エンティティに対する多数の変更の履歴に対してクエリを実行することもでき、これはユーザー行動分析やパフォーマンス最適化に役立ちます。

コンテキスト

Cloud Datastore でのイミュータブルエンティティの実装について見る前に、このデータストアの動作の基本的な仕組みをある程度理解しておく必要があります。なお、Cloud Datastore に精通している方は、このセクションを飛ばしていただいてかまいません。

Cloud Datastore はキーバリューストアと考えることができます。バリュー（データストア内のエンティティ）はキーで特定され、エンティティ自体は 1 つまたは複数のプロパティを持ちます。テーブル内のすべてのエンティティにスキーマが強制されることはありません。このため、2 つのエンティティのプロパティが同じである必要はありません。

このデータベースは 1 つのテーブルに対する基本的なクエリもサポートします。ジョインやアグリゲーションは行われず、単純なテーブルスキャンだけが行われ、そのためのインデックスが作成できます。これは制限のように思われるかもしれませんが、この特徴のおかげで、高速で一貫したクエリパフォーマンスが得られます。通常、データの非正規化が行われるからです。

今回のイミュータブルエンティティの実装では、Cloud Datastore の最も重要な特徴は “エンティティグループ” にあります。エンティティグループはエンティティのグループであり、このグループでは以下の 2 つのことが保証されます。

1 つのエンティティグループのみに対するクエリからは整合性のある結果が得られます。これは、書き込みの直後にクエリを行った場合、その結果は、その書き込みによる変更を反映することが保証されているということです。逆に、クエリの対象が 1 つのエンティティグループに限定されていなければ、整合性のある結果は得られないかもしれません（データの陳腐化のため）。
マルチエンティティトランザクションは、1 つのエンティティグループ内にのみ適用できます（この機能は最近、改良されました。Cloud Datastore は現在、エンティティグループ間のトランザクションをサポートしています。ただし、トランザクションに含まれるエンティティグループの数は 25 までに制限されています）。

この 2 つのことは、いずれも私たちの実装にとって重要です。Cloud Datastore 自体の詳細についてはドキュメントをご覧ください。

どのようにイミュータブルエンティティを実装したか

私たちは、1 つのエンティティに対して行った変更をすべて保存するとともに、エンティティの一般的な操作（取得、削除、更新、作成、クエリ）をサポートする方法を必要としていました。私たちが選択した全体的な戦略は、2 つのレベルの抽象化により、“データストアエンティティ” と “論理エンティティ” を使用することでした。個々の “データストアエンティティ” で “論理エンティティ” の個々のバージョンを表すようにしたのです。

私たちの API のユーザーは論理エンティティだけを操作し、それぞれの論理エンティティはデータストアエンティティを特定するキーを持ち、一般的な取得、作成、更新、削除、クエリの各操作をサポートします。これらの論理エンティティは、その論理エンティティのさまざまなバージョンを構成する実際のデータストアエンティティにバッキングされるわけです。最新の、あるいは最も Tip（先頭）のバージョンのデータストアエンティティが、論理エンティティの現在の値を表します。

まず、データモデルがどのようなものかを見てみましょう。私たちは以下のようにエンティティを設計しました。

ユーザーがエンティティに変更を加えようとするたびに、必ず新しいデータストアエンティティが保存される仕組みになっています。最新のデータストアエンティティは isTip の値が true に設定され、他のデータストアエンティティは false に設定されます。

後でこのフィールドを使ってクエリを実行し、最新のデータストアエンティティを特定することで、特定の論理エンティティを取得します。このクエリはデータストアで高速に実行されます。すべてのクエリがインデックスを持つ必要があるからです。また私たちは、各データストアエンティティが作成された日時のタイムスタンプも保存します。

versionId フィールドは、各データストアエンティティのグローバル一意識別子（GUID）です。この ID は、エンティティを保存するときに Cloud Datastore によって自動的に割り当てられます。

consistentId は論理エンティティを特定します。これは、私たちがこの API のユーザーに提供できる ID です。1 つの論理エンティティ内のデータストアエンティティは、すべて同じコンシステント ID を持ちます。

私たちは、論理エンティティのコンシステント ID を、チェーンの最初のデータストアエンティティの ID と同じにしました。コンシステント ID はある程度任意に決めることができ、どのような一意識別子を選んでもかまいません。しかし、低レベルの Cloud Datastore API がどのデータストアエンティティにもユニークな ID を割り当てるので、私たちはコンシステント ID として、最初のデータストアエンティティの ID を使うことにしたのです。

このデータモデルには、興味深い点がもう 1 つあります。それは firstEntityInChain フィールドです。

上の図には示されていませんが、すべてのデータストアエンティティは親を持ちます（親を基準にエンティティグループが決まります）。チェーン内の最初のデータストアエンティティが親として設定されます。

重要なのは、チェーン内のすべてのデータストアエンティティ（最初のものを含む）が同じ親を持ち、それゆえ同じエンティティグループに属することです。そのおかげで、これらに対して整合性を持つクエリを実行できます。以上のものが必要な理由については後述します。

コードで定義された同じイミュータブルエンティティを以下に示します。私たちは素晴らしい Objectify ライブラリと Cloud Datastore を使っており、以下ではこれらを活用したコード例を随時紹介します。

public class ImmutableDatastoreEntity {
@Id
Long versionId;
@Parent
Key<T> firstEntityInChain;
protected Long consistentId;
protected boolean isTip;
Key<User> savedByUser;
}

それでは、論理エンティティに対する一般的な操作をどのように行うのかを見ていきましょう。論理エンティティがデータストアエンティティでバッキングされることを念頭に置いてください。

作成を実行

論理エンティティを作成するときは、1 つの新しいデータストアエンティティを作成し、Cloud Datastore の ID 割り当てを利用して versionId フィールドを設定し、consistentId フィールドに同じ値を設定するだけです。

また、親キー（firstEntityInChain）として自身を指定します。後でこのエンティティをクエリできるように、isTip を true に設定する必要もあります。さらに、タイムスタンプとデータストアエンティティの作成者を設定し、このエンティティを Cloud Datastore に永続的に保存します。

ImmutableDatastoreEntity entity = new ImmutableDatastoreEntity();
entity.setVersionId(DAO.allocateId(this.getClass()));
entity.setConsistentId(entity.getVersionId());
entity.setFirstEntityInChain((Key<T>) Key.create(entity.getClass(), entity.versionId));
entity.setTip(true);

更新を実行

論理エンティティを新しいデータで更新するには、まずチェーン内の最新のデータストアエンティティをフェッチする必要があります（手順については、下の “取得” のセクションで説明します）。

次に、新しいデータストアエンティティを作成し、consistentId と firstEntityInChain を、フェッチしたデータストアエンティティのものに設定します。新しいデータストアエンティティの isTip を true に設定し、フェッチしたデータストアエンティティのこのフィールドを false に設定します（既存エンティティの中で、このインスタンスだけを変更することに注意してください。つまり、100 % イミュータブルなわけではないということです）。

最後に、タイムスタンプとユーザーキーのフィールドを埋めます。これで、新しいデータストアエンティティを保存する準備が整いました。

ここで重要なポイントが 2 つあります。1 つは、新しいデータストアエンティティについては、保存時に Cloud Datastore が ID を自動的に割り当てるようにすればよいということです（ID を他の用途で使う必要はないからです）。

そしてもう 1 つのポイントは極めて重要です。それは、既存データストアエンティティのフェッチと、新旧のデータストアエンティティの保存は、同一のトランザクションで実行するということです。そうしないと、データの内部整合性がなくなるおそれがあります。


// start transaction
ImmutableDatastoreEntity oldVersion = getImmutableEntity(immutableId)


oldVersion.setTip(false);
ImmutableDatastoreEntity newVersion = oldVersion.clone();


// make the user edits needed


newVersion.setVersionId(null);
newVersion.setConsistentId(this.getConsistentId());
newVersion.setFirstEntityInChain(oldVersion.getFirstEntityInChain());


// .clone also performs the last two lines but just to be explicit this, just fyi


newVersion.setTip(true);
ofy().save(oldVersion, newVersion).now();


// end transaction

取得を実行

取得を実行するには、Cloud Datastore に対してクエリ操作を行わなければなりません。特定の consistentId を持ち、かつ isTip が true に設定されているデータストアエンティティを検索する必要があるからです。

このエンティティが論理エンティティを表します。クエリを整合性のあるものにしたいので、“祖先クエリ” を実行する必要があります（つまり、特定のエンティティグループに対してのみクエリを実行するように Cloud Datastore に指示する必要があります）。このクエリが動作するのは、特定の論理エンティティのすべてのデータストアエンティティが、同じエンティティグループに属するようにした場合に限られます。

このクエリが返す結果は 1 つだけ、つまり論理エンティティを表すデータストアエンティティだけでなければなりません。

Key ancestorKey = KeyFactory.createKey(ImmutableDatastoreEntity.class, consistentId);
ImmutableDatastoreEntity e = ofy().load()
.kind(ImmutableDatastoreEntity.class)
.filter("consistentId", consistentId)
.filter("isTip", true)
.ancestor(ancestorKey) // this limits our query to just the 1 entity group
.list()
     .first();

削除を実行

論理エンティティを削除するには、最新のデータストアエンティティの isTip を false に設定するだけです。こうすることで、上に述べた “取得” の操作を行っても、結果が返されなくなります。その一方で、以下に述べるようなクエリは引き続き動作します。


// wrap block in transaction
ImmutableDatastoreEntity oldVersion = getImmutableEntity(immutableId);
oldVersion.setTip(false);
ofy().save(oldVersion, newVersion).now();

クエリを実行

すべての論理エンティティに対してクエリを実行できる必要があります。ただし、どのデータストアエンティティをクエリするときも、各論理エンティティの最新のデータストアエンティティだけをクエリの対象とするように、クエリを設定する必要があります（データの古いバージョンを明示的に検索したいのでなければ）。そのためには、クエリの対象を最新のエンティティに限定する特別なフィルタをクエリに追加することが必要です。

ここで重要な注意点があります。この場合、整合性を持つクエリを実行することはできないということです。すべてのクエリ結果が同じエンティティグループに属することを保証できないからです（実は、結果が複数の場合は、それらが同じエンティティグループに属さないことは自明です）。


List<ImmutableDatastoreEntity> results = ofy().load()
.kind(ImmutableDatastoreEntity.class)
.filter("isTip", true)
.filter(/** apply other filters here */)
     .list();

ニュースフィードクエリを実行

私たちの目標の 1 つは、論理エンティティが時間とともにどのように変わってきたかを示すことでした。そのためには、チェーン内のすべてのデータストアエンティティをクエリできなければなりません。

これはかなりシンプルなクエリです。consistentId でクエリし、結果をタイムスタンプで並べるだけです。そうすれば、論理エンティティのすべてのバージョンが得られます。各データストアエンティティについて、前のデータストアエンティティとの差分を取れば、ニュースフィードに必要なデータを生成できます。


Key ancestorKey = KeyFactory.createKey(ImmutableDatastoreEntity.class, consistentId);
List<ImmutableDatastoreEntity> versions = ofy().load()
.kind(ImmutableDatastoreEntity.class)
.filter("consistentId", consistentId)
.ancestor(ancestorKey)
     .list();

課題

以上の設計により、私たちは、デバッグしやすく、ニュースフィード風の機能を開発しやすい、ほぼイミュータブルなエンティティを実装するという目標を達成できました。しかし、この方法にはいくつか課題もあります。

エンティティを取得するには必ずクエリを実行する必要がある : 特定の論理エンティティを取得するには、前述したようにクエリを実行しなければなりません。Cloud Datastore では、これはキーによる従来の “取得” よりも時間のかかる操作です。さらに、Objectify はビルトインキャッシング機能を提供しますが、イミュータブルエンティティの 1 つを取得しようとするときは、この機能は使えません（Objectify はクエリをキャッシュできないからです）。この課題の対策としては、パフォーマンス上の問題が発生したら独自のキャッシングを memcache で実装することです。
エンティティの取得をバッチで実行する方法がない : 各クエリは、整合性を確保するために 1 つのエンティティグループを対象にしなければならないので、複数の論理エンティティの最新のデータストアエンティティを、1 回のデータストア操作でフェッチすることはできません。この問題に対処するため、私たちは複数の非同期クエリを実行し、それらがすべて完了するのを待ちます。この方法は理想的でもクリーンでもありませんが、実用上はかなりうまくいきます。ただし、App Engine で RPC を同時に呼び出す場合、RPC の発行数は 30 までに制限されていることに留意する必要があります。そのため、この対処方法は暫定的なものと言わざるをえません。
エンティティを実装する初期コストが高い : 私たちは、上で説明した設計の大部分を抽象化し、イミュータブルエンティティを今後は低コストで実装できるようにしました。しかし、エンティティを最初に実装するのは容易なことではありませんでした。さまざまな問題をすべて解決するにはかなりの時間を要しました。こうした手間のかかる実装を行う価値があるのは、イミュータビリティを切実に必要としている場合か、もしくは実装をさまざまなユースケースに活用し、その多くの受益者に実装コストを “広く薄く” 負担してもらう場合に限られます。
エンティティが実際には削除されない : 設計上、私たちはイミュータブルエンティティを削除しません。しかし、ユーザーの側では、私たちのアプリで何かを削除したら、私たちがそのデータを実際に削除することを期待するかもしれません。一部の規制対象業種（ヘルスケアなど）でも、そうしたことが求められる可能性があります。私たちのユースケースではそうした配慮は不要でしたが、お客様によっては、データセットを監視し、論理エンティティが削除されたのを見つけたら、バッチタスクで定期的に、それらを表すデータストアエンティティをすべて削除するシステムを開発したほうがよいかもしれません。

次のステップ

私たちは、イミュータブルエンティティを本番環境で短期間しか運用していません。そのため、これから未知の問題に直面することもあるでしょう。また、イミュータブルエンティティとして実装するデータセットがさらにいくつか増えれば、実装のコストや労力に見合った効果が出ているかどうかを明確に判断できるようになるはずです。

最新情報をお知りになりたい方は、ぜひ私たちのブログをご覧ください。

今回紹介したようなデータインフラストラクチャに興味を持たれた方は、ぜひご連絡ください。なお、私たちはバックエンドチームのメンバーも募集しています。私たちの人材募集ページで詳しい情報をご覧ください。

ディスカッションは Hacker News でどうぞ。

1 これは MVCC（https://en.wikipedia.org/wiki/MultiVersion_Concurrency_Control）の考え方と非常に似ています。MVCC は、多くの現代的なデータベースでトランザクションやロールバックの実装に使用されています。

- Posted by Aleem Mawani, Co-Founder, Streak.com

* この投稿は米国時間 8 月 3 日、Streak.com の Co-Founder である Aleem Mawani 氏によって投稿されたもの（投稿はこちら）の抄訳です。
Google Apps に対応した Streak の CRM ソリューションGoogle Cloud PlatformGoogle App EngineGoogle Cloud Datastore

私たちはニュースフィードスタイルの UI を簡単に実装できる方法を求めていました。一般的なニュースフィードは、エンティティが時間の経過とともにどのように変化したかを、グラフィカルなフォーマットでユーザーに表示します。従来、私たちは 1 つのエンティティの異なるバージョン間の差分を記録するために、独立したサイドエンティティを保存していました。こうしたサイドエンティティをクエリして、ニュースフィードをレンダリングしていたのです。しかし、このようなサイドエンティティは設計上、エラーが起こりやすく、メンテナンスが面倒でした。たとえば、エンティティに新しいプロパティを追加したときは、サイドエンティティにも忘れずに追加する必要がありました。特定のデータをサイドエンティティに追加し忘れると、後で必要になったときにそのデータを再構築する方法はなく、そのデータは永久に失われました。

エンティティ “Contact” は、ユーザーの連絡先に関するデータを保存します。イミュータブルエンティティとして実装されているので、連絡先が時間とともにどのように変わってきたかを示す履歴を簡単に生成できます。

イミュータブルエンティティを持つことで、ユーザーエラーからのリカバリが非常に簡単になります。ユーザーはデータを前のバージョンにロールバックでき、うっかり削除してしまったようなデータをリカバリすることもできます（私たちが削除操作をどのように実装したかについては後述します）¹。

デバッグが容易になる可能性が高まります。エンティティが時間とともにどのように変化し、現在の状態になったのかがわかると、便利な場合がよくあります。エンティティに対する多数の変更の履歴に対してクエリを実行することもでき、これはユーザー行動分析やパフォーマンス最適化に役立ちます。

コンテキスト非正規化
今回のイミュータブルエンティティの実装では、Cloud Datastore の最も重要な特徴は “エンティティグループ” にあります。エンティティグループはエンティティのグループであり、このグループでは以下の 2 つのことが保証されます。

1 つのエンティティグループのみに対するクエリからは整合性のある結果が得られます。これは、書き込みの直後にクエリを行った場合、その結果は、その書き込みによる変更を反映することが保証されているということです。逆に、クエリの対象が 1 つのエンティティグループに限定されていなければ、整合性のある結果は得られないかもしれません（データの陳腐化のため）。
マルチエンティティトランザクションは、1 つのエンティティグループ内にのみ適用できます（この機能は最近、改良されました。Cloud Datastore は現在、エンティティグループ間のトランザクションをサポートしています。ただし、トランザクションに含まれるエンティティグループの数は 25 までに制限されています）。

この 2 つのことは、いずれも私たちの実装にとって重要です。Cloud Datastore 自体の詳細についてはドキュメントをご覧ください。

どのようにイミュータブルエンティティを実装したか

public class ImmutableDatastoreEntity {
@Id
Long versionId;
@Parent
Key<T> firstEntityInChain;
protected Long consistentId;
protected boolean isTip;
Key<User> savedByUser;
}

作成を実行

ImmutableDatastoreEntity entity = new ImmutableDatastoreEntity();
entity.setVersionId(DAO.allocateId(this.getClass()));
entity.setConsistentId(entity.getVersionId());
entity.setFirstEntityInChain((Key<T>) Key.create(entity.getClass(), entity.versionId));
entity.setTip(true);

更新を実行


// start transaction
ImmutableDatastoreEntity oldVersion = getImmutableEntity(immutableId)


oldVersion.setTip(false);
ImmutableDatastoreEntity newVersion = oldVersion.clone();


// make the user edits needed


newVersion.setVersionId(null);
newVersion.setConsistentId(this.getConsistentId());
newVersion.setFirstEntityInChain(oldVersion.getFirstEntityInChain());


// .clone also performs the last two lines but just to be explicit this, just fyi


newVersion.setTip(true);
ofy().save(oldVersion, newVersion).now();


// end transaction

取得を実行

Key ancestorKey = KeyFactory.createKey(ImmutableDatastoreEntity.class, consistentId);
ImmutableDatastoreEntity e = ofy().load()
.kind(ImmutableDatastoreEntity.class)
.filter("consistentId", consistentId)
.filter("isTip", true)
.ancestor(ancestorKey) // this limits our query to just the 1 entity group
.list()
     .first();

削除を実行

// wrap block in transaction

ImmutableDatastoreEntity oldVersion = getImmutableEntity(immutableId);

oldVersion.setTip(false);

ofy().save(oldVersion, newVersion).now(); クエリを実行


List<ImmutableDatastoreEntity> results = ofy().load()
.kind(ImmutableDatastoreEntity.class)
.filter("isTip", true)
.filter(/** apply other filters here */)
     .list();

ニュースフィードクエリを実行


Key ancestorKey = KeyFactory.createKey(ImmutableDatastoreEntity.class, consistentId);
List<ImmutableDatastoreEntity> versions = ofy().load()
.kind(ImmutableDatastoreEntity.class)
.filter("consistentId", consistentId)
.ancestor(ancestorKey)
     .list();

課題

エンティティを取得するには必ずクエリを実行する必要がある : 特定の論理エンティティを取得するには、前述したようにクエリを実行しなければなりません。Cloud Datastore では、これはキーによる従来の “取得” よりも時間のかかる操作です。さらに、Objectify はビルトインキャッシング機能を提供しますが、イミュータブルエンティティの 1 つを取得しようとするときは、この機能は使えません（Objectify はクエリをキャッシュできないからです）。この課題の対策としては、パフォーマンス上の問題が発生したら独自のキャッシングを memcache で実装することです。
エンティティの取得をバッチで実行する方法がない : 各クエリは、整合性を確保するために 1 つのエンティティグループを対象にしなければならないので、複数の論理エンティティの最新のデータストアエンティティを、1 回のデータストア操作でフェッチすることはできません。この問題に対処するため、私たちは複数の非同期クエリを実行し、それらがすべて完了するのを待ちます。この方法は理想的でもクリーンでもありませんが、実用上はかなりうまくいきます。ただし、App Engine で RPC を同時に呼び出す場合、RPC の発行数は 30 までに制限されていることに留意する必要があります。そのため、この対処方法は暫定的なものと言わざるをえません。
エンティティを実装する初期コストが高い : 私たちは、上で説明した設計の大部分を抽象化し、イミュータブルエンティティを今後は低コストで実装できるようにしました。しかし、エンティティを最初に実装するのは容易なことではありませんでした。さまざまな問題をすべて解決するにはかなりの時間を要しました。こうした手間のかかる実装を行う価値があるのは、イミュータビリティを切実に必要としている場合か、もしくは実装をさまざまなユースケースに活用し、その多くの受益者に実装コストを “広く薄く” 負担してもらう場合に限られます。
エンティティが実際には削除されない : 設計上、私たちはイミュータブルエンティティを削除しません。しかし、ユーザーの側では、私たちのアプリで何かを削除したら、私たちがそのデータを実際に削除することを期待するかもしれません。一部の規制対象業種（ヘルスケアなど）でも、そうしたことが求められる可能性があります。私たちのユースケースではそうした配慮は不要でしたが、お客様によっては、データセットを監視し、論理エンティティが削除されたのを見つけたら、バッチタスクで定期的に、それらを表すデータストアエンティティをすべて削除するシステムを開発したほうがよいかもしれません。

次のステップ

- Posted by Aleem Mawani, Co-Founder, Streak.com

現在の容量	しきい値	自動的に追加される容量
50GB	7GB	7GB
100GB	9GB	9GB
250GB	15GB	15GB
500GB	25GB	25GB
1000GB	25GB	25GB
5000GB	25GB	25GB

Google Cloud Platform Japan Blog

リージョンの増設が加速

マルチクラウドの活用をサポート

クラウド データ ウェアハウジングや機械学習への移行を後押し

顧客サポートのために新しいエンゲージメント モデルを導入

BigQuery へのエクスポートの仕組み

データの概要

ユーザー データ

イベント データ

複雑なクエリ

アナリティクス データのビジュアライズ

使ってみよう

Cloud Shell

カスタム マシン タイプ

プリエンプティブル VM

Cloud SQL のストレージ自動拡張

ダウンタイムなしでの永続ディスクのオンライン リサイジング

コンテキスト

どのようにイミュータブル エンティティを実装したか

作成を実行

更新を実行

取得を実行

削除を実行

クエリを実行

ニュースフィード クエリを実行

課題

次のステップ

ニュースフィード クエリを実行

課題

次のステップ

12 か月間のトライアル

Labels

Archive

Feed

Company-wide

製品・サービス

デベロッパー

クラウドデータウェアハウジングや機械学習への移行を後押し

顧客サポートのために新しいエンゲージメントモデルを導入

ユーザーデータ

イベントデータ

アナリティクスデータのビジュアライズ

カスタムマシンタイプ

ダウンタイムなしでの永続ディスクのオンラインリサイジング

どのようにイミュータブルエンティティを実装したか

ニュースフィードクエリを実行

ニュースフィードクエリを実行