前回はデータの民主化を推進する際の注意点を解説しました。これまでの話のようにさまざまな職種のメンバーが自社のデータに手軽にアクセスができるようになり、それぞれの分析が可能になった後、データ分析者としてはどのような役割を担っていくことが良いのでしょうか。今回の記事ではデータ分析者が期待されている役割、その評価とキャリアについて考察します。
データ分析者に期待される役割
まず、データ分析者に期待される役割について考えてみます。主に期待される役割は次の3つの役割でしょう。
- データ品質の向上
- データ分析のサポートやフォロー
- 機械学習や統計モデリングなどの適用
データ品質の向上
データ品質の向上はどのようなことを指すのでしょうか。基本的に周りのメンバーもSQLなどを通じてデータにアクセスしたり簡単な集計ができる状態です。このため、データベースに関する、データを「実体」「関連」「属性」という3つの構成要素でモデル化する「ERモデル」を図で示した「ER図」や、よく利用するデータベースの説明、パラメータの持つ意味などのドキュメンテーションを整備することで、データのアクセシビリティ(アクセスしやすさ)を向上させることがその1つに該当します。
この類の文書化(ドキュメンテーション)はきちんと意識しないとまったく整備されないので、ここは積極的に意識して整備していきたいところです。また、データベースに格納されてくるデータを把握し、そのデータの取得方法を変更したり、アクセスログなどの仕込み漏れなどについても極力フォローすることも大事です。
基幹系のデータなどであれば基本的にデータは保存されているはずですが、データ量の多いアクセスログなどは簡略化されているケースも多いので、確認する機会を設けると良いでしょう。また、データ量の都合により、どこまでのデータをDBに入れておき、どこからをアーカイブするかなどの見解に関与することも大事です。アーカイブするとなかなか引き出しにくくなりますから、重要な情報は集計テーブルなどを作成して、生データから引き出す必要はないような状態にしておく必要があります。
最後に文字列データの整備です。自社サービスで全てをまかなっている場合は問題ありませんが、別のデータソースから情報を持ってきていたり、サービスのユーザーが入力したデータなどは正規化するための整備が重要です。主に名寄せのような処理で表記ゆれをなるべくなくしたり、そのメタデータを作成することでデータを分析するための前処理工程を削減できるので圧倒的に分析の生産性が向上します。筆者の経験上も、この観点を意識している人はまだ少ないと感じており、ぜひ注意してほしいところです。