NTTドコモR&Dの技術ブログです。

データの海で迷わない!ドコモのデータカタログ運用のお話

1. はじめに

こんにちは!NTTドコモ データプラットフォーム部(以下DP部)の白石・三澤です。

  • 白石:データカタログのシステム構築・運用を担当
  • 三澤:データカタログの全体的な拡張・運用方針の策定を担当

世の中的にデータを元に意思決定することの重要さは認知されていますが、ドコモでも経営戦略としてデータ活用強化を掲げ、全社のあらゆるビジネスでデータドリブンな事業運営に取り組んでいます。データをビジネス価値に結び付ける過程では「データ自体を理解すること」が必要であり、それを支援するのがデータカタログ*1製品です。

データ活用のよくある課題に、データ探索・仕様理解に多くの時間がかかり、本来注力すべきデータ分析に十分なリソースを投入できないことが挙げられます。非常に多くのサービスを抱えるドコモでも同様の課題が存在し、これを解決するためにDP部では他部門の協力を得ながらデータカタログを運用し、社内のデータ有識者のナレッジをデータカタログに集約する活動を進めています。

ドコモではデータカタログ製品Alationを導入し、3,000人を超える社内のデータ分析者の業務を支援しています。

本稿ではドコモのデータ活用基盤における、データカタログ充実化の取り組み・運用の一部を紹介いたします。

Alationとは?

※上記イメージは、Alation社が提供するサンプル画面です。実際の画面や設定内容とは異なります。

まず、Alationについてご紹介します。 Alationとは次世代型のデータカタログであり、一般的なデータカタログ機能はもちろんのこと、ナレッジ共有機能、高度な検索機能、コラボレーション機能も備わっています。

ドコモでは社内に散在する大量のデータの説明および活用ナレッジを集約し、データ活用を強力に推進するべく、Alationを2024年3月より全社展開して運用しています。

Alation社HPにもドコモの導入事例が掲載されています。 https://www.alation.com/customers/ntt-docomo/

2. ドコモのデータ活用基盤とデータカタログ

2-1. ドコモのデータ活用基盤について

ドコモではクラウドDWH製品Snowflakeを中心としたデータ活用基盤を全社で利用しています。 データ分析者は各自の目的に応じてツールを選び業務を行っていますが、どういった分析をするにしても、有効な示唆を得るにはデータの扱い方・意味を理解して適切にデータを処理する必要があります。 そのためデータ自体の理解を支援するデータカタログは重要なインフラであり、ドコモでは月間3,000人以上のユーザーがAlationを利用し、日々データに対する理解を深めています。

2-2. AlationとSnowflakeの連携機能

データを正しく利用するにはDWHとデータカタログが同期し、DWH上の最新の情報がデータカタログ上でも確認できるようになっている必要があります。 AlationのSnowflakeコネクタの機能にはMDE(メタデータ抽出)とQLI(クエリログ抽出)の連携機能があり、これらによりSnowflakeとAlationを同期し、データの説明のページやデータの活用に関する情報を生成することができます。

  • â‘ MDE(メタデータ抽出 / Metadata Extraction):
    • Snowflake上のデータベース、スキーマ、テーブルの定義情報(メタデータ)を抽出し、Alation上にカタログページを生成する
  • â‘¡QLI(クエリログ抽出 / Query Log Ingestion):
    • Snowflakeからクエリ実行履歴を抽出し、Alationへ連携されたメタデータに対して活用に関する情報を付与する
      • データリネージュ
      • データの人気度
      • よくある使われ方(結合・フィルタ条件)

3. データカタログの運用の話

さて、ここまでツール面の話を書いてきましたが、分析者が使いやすいデータカタログにするためには、ツールに加えて人の力も大事です。せっかく便利なツールを導入しても肝心な中身が書かれていないと意味がないので、開発者・有識者のみなさまにご協力頂きながら「データについてのわかりやすい説明がカタログに載っている」状態、つまりカタログ充実化ができている状態を実現できるよう取り組んでいます。

以下ではドコモで実施している、ツールと人の力を組み合わせたカタログ充実化運用の話について触れたいと思います。

3-1. カタログ運用その1:DWH開発者によるカタログ運用

上記でも記載している通り、適切にデータを分析するにはデータカタログ上の情報が常にDWHと同期・連携されている必要があります。 例えば新規のテーブルがSnowflake上に作成されたとき、そのままではカタログ側にそのテーブルに関する説明が無い状態です。 DWHの利用者が新規テーブルの説明を参照できるよう、新規のテーブルを作成したあとにカタログ登録するところまでをDWH (Snowflake) 側の開発プロセス組み込むことで、常にテーブル説明が用意されている状態を実現しています。 具体的には、

  • ①開発作業:Snowflake上でテーブル公開
  • â‘¡MDEジョブ実行:Alationにメタデータ取り込み⇒テーブルの説明ページ生成
  • ③カタログ登録:②で作成されたテーブル説明ページにデータ利活用に関する情報を登録

の流れでリリース作業を実施します。

3-2. カタログ運用その2:データオーナーによるカタログ運用

上記手順でカタログリリースをしたあとも、データ利用者に役立つ情報をアップデートしていくことが大切です。 そのために、ドコモでは各データについてそのデータに詳しい人=データオーナーを明確化して、継続的なカタログ充実化ができるように運用をしています。

3-2-1. データオーナーによるカタログ運用を実現するまで

以前はデータオーナーが明確ではないデータも存在していたので、「このデータの説明がもう少し書いてあるとうれしいんだけど、誰にお願いすればいいんだろう……?」だったり、「このデータについて問合せを受けているけど、だれに聞けばいいんだろう……?」のように悩むことがありました。

そこで、Alation導入に合わせて各データのデータオーナーを明確化するようにしました。各データのデータオーナーがだれか?を確認して、名前をデータカタログにも登録しています。 なかなかデータオーナーが見つからないデータもあり手間と時間がかかったところではありますが、データオーナー明確化により冒頭の悩みはかなり解消されたかなと思っています。

3-2-2. データオーナーのみなさまのご協力

データオーナーの明確化が進んだところで、カタログ充実化の促進にも取り組みました。データの量も種類も多いのでいきなり完璧な状態にすることは難しいのですが、

  • 公開済みのデータ:よく使われているデータ・重要なデータから優先的に取り組む
  • 今後新規で公開するデータ:きちんとデータ説明が書かれた状態・データオーナーが明確になった状態で公開する

という方針のもと、なるべくコスパよく効果がでるように、データオーナーのみなさまのご協力を頂きながらカタログ充実化に取り組んでいます。

今後新規で公開するデータは「これからきっちり頑張るぞ!」でいいのですが、公開済みのデータはそうもいきません。そこで公開済みのデータのうち、よく使われているデータで説明記載が十分でないものについては、担当データオーナーのみなさまにデータ説明の充実化を依頼しました。データオーナーのみなさまにはお忙しい中でデータ説明充実化の対応をして頂き、かなり充実化が進みました。大変感謝しております。

合わせて、このようなカタログ充実化活動に協力してくださった方に対しては、社内のデータ活用人材認定制度にも使えるポイントを付与できるように仕組みも整備しました。 カタログ充実化はどうしても貢献度が見えにくいところでもあるので、このようにポイント化して貢献度が定量的にわかる状態にすることも重要かなと感じています。

4. 今後の展望

記事の充実化

データの扱い方・意味を理解できるようにカタログを充実化させていくうえでは、「3. データカタログの運用の話」で記載したように各データのカタログページを充実化させるだけでなく、データ活用に関する記事を書いていくことも進めています。

  • データがたくさんありますが、まず基本的なデータはこの3個です。それぞれ簡単に説明します!
  • ユーザー行動を追うためには、このデータは別のこのデータと組み合わせて、あのデータは別のあのデータと組み合わせて分析するのがおすすめです!
  • 社内の分析ツールはこのように使うと便利です!

といった個別データに閉じない内容は、特定のデータのカタログページに記載するのではなく、データ活用に関する記事として公開するようにしています。

AlationではArticleやDocument Hubという機能があり、Wikiのように記事を書くことができるので大いに活用しています。 特に分析初心者の方は、まずビジネスやデータの全体像をざっくり掴む → 細かいところを知っていくという流れで学んでいくと理解しやすく、「全体像をざっくり掴む」ときにはこのような記事がかなり役に立っています。

まとめ

ドコモのデータカタログ充実化の取り組みや運用の一部として、SnowflakeとAlationの連携やデータカタログ運用の流れをご紹介しました。データ活用を推進するためにデータ説明やナレッジを溜めていきたいが、なかなか溜まらない……というケースは多いかと思いますので、参考になれば幸いです。

ドコモでもさらなる改善に向けて活動を続けていきます。

*1:データカタログ:組織が所有するデータ資産を表現し、それらの位置、構造、使用方法などに関するメタデータを一元的に管理するためのツールやシステム。データの検索、アクセス、管理を容易にし、データガバナンスやデータの再利用を支援する。