ビッグデータを活かすデータサイエンス -クロス集計から機械学習までのビジネス活用事例という本を執筆しました!

前回の書籍「ビジネス活用事例で学ぶデータサイエンス入門」の姉妹本つくりました。


今回のはライト層向けの啓蒙的書籍です。

  • コードは一切ないです。
  • 統計処理の解説をつけました。
  • 用語解説を充実させました。

データサイエンスってなにしているの?的なことを軽く読みたい方ぜひ!

以下、「はじめに」を抜粋します。

はじめに

人間の感覚はとても優れています。ときにはデータでわかること以上のことに実感を伴って理解していたりします。しかしながら一方で、ある部分ではいいかげんなため、ある一面においてデータ分析がビジネスで効果をあげているのではないかと。
そのある一面とは他人の気持ちを想像するという一面になると考えます。経験することで生まれた感覚がデータを超えた、とても優れている機能であることは間違えないのですが、どこまでいっても自分の感覚という域をでません。ビジネスでは他人の気持ち、みんなの気持ちを上手に理解できた人や組織が有利になります。ある一握りの才能がある人は自分の経験をもとに一般化し、他人の気持ちを推し量りながら上手にサービスに組み立て、多くの人から需要のあるサービスを構築していきます。しかしながらこれはほんの一握りの推測できる才能がある人であり、大半の人々には残念ながら結果的には、本当にうまく他人の気持ちを推測することが困難です。特になにかのサービスを作った場合に、お金を払ってでも本当に欲しいという気持ちをもつ人の、具体的な人数、を想像することはとても難しいことのように感じます。

そこで従来、他人の気持ちを推測するための手法として、アンケートやグループインタビュー、行動観察、クレーム分析、購買データ解析などさまざまなマーケティング分析が実施されてきました。
サービスを企画する人が自分の経験をふまえ他人の気持ちを推測した結果と、実際のみんなの気持ちとの乖離が大きければ大きいほどにデータ分析はビジネス効率を上げることに役立ちます。我々のこれまでの業務体験を振返ってみましても、さまざまな業種、さまざまな職域において、効果の大小こそあれ、他人の気持ちを定量的に推測することに対しては役立つことが多いです。

近頃「ビッグデータ」という言葉が注目されています。データ分析者の視点からみると、これはひとえに他人の気持ちを推し量る道具として期待されている一面が大きいように感じます。アンケートやグループインタビュー、行動観察など従来のマーケティグ手法では、多くの人数から気持ちをとりにくいという状況があるからです。また従来の方法ではとれなかった気持ちもとれるのではないかという期待感もあるのではないでしょうか。
インターネットの普及により、インターネット上にはさまざまな気持ちのデータが残るようになりました。例えば、Twitter 、Facebook などによる個々人の意見のログ、あるいはどの言葉に関心があるかという検索ワードのログ、どのページに関心があったかというようなアクセスログなどもあります。あるいはGPSの位置情報ログ、通話や通信ログ、定期券や TUTAYAカードによる駅の利用歴、コンビニなどの購買歴のような個々人の生活に関する行動ログも個々の企業にはのこりつつあります。
またデータ処理能力の向上により、画像解析や、大量なデータに対する複雑なモデリングなど、さまざまな計算が現実的な時間でできるようになってきました。
このような背景をもとに以下のように具体的な利用がされはじめています。みなさんも日常のなかで体験しているサービスもあると思います。

  • 商品の購買歴から、類似の商品を提案してくるレコメンデーションサービス

・ WEBの閲覧歴から、広告を提案してくるページ
・ 顔画像をもとに、買うべき飲み物を推薦してくる販売機
・ あるDVDを借りると、おまけでクーポンがでてきた
・ 人々のつぶやきから、株価があがりそうな銘柄をおしえてくれるサイト
・ 人々のつぶやきから、今人気のあるニュースを教えてくれるサイト

ビッグデータという新しいデータや、高速となった処理方法から、他人の気持ちを推測し、これを直接的につかっているサービスを紹介しました。これらのサービスは、データ活用の視点からみると大きく2つに分類できます。
「社外データの活用」と、「社内データの活用の充実」になります。

社外データとはつまりインターネット上のデータです。具体的にはTwitter 、Facebook などによる個々人の意見のログから株価があがりそうな銘柄をみつけることなどにあたります。あるいは自社が販売開始した商品に対するコメント数を見る。検索数を見る。などのマーケティング活用があります。こちらの社外のデータ活用は一定の効果があがりつつある分野ですが、その成果は主に金融業界に限られることも含め、ビジネスでの再現性という視点から見ると、現在、研究段階にあるように感じます。

一方で、社内データの活用ですが、従来、購買データや、営業データ、経理データなどから各組織では業務のロスを少なくしていく改善活動、業務の最適化が行われていたことと思います。つまり従来のデータ分析とは、自社に蓄えられたデータを各部署が処理し、業務を改善してきたということになります。
これに加え現在では、他の部署と連携したデータ分析ができるようになってきました。それは多くの業種がインターネットを利用しつつサービスが行われるようになってきたからです。例えば、各企業の情報システム部ではWEBのアクセスログを残していることと思います。本来の利用目的としては、システム負荷をみつつユーザ数とシステムとの最適化を検討するため、あるいはあるユーザが何かのトラブルになったときの障害対応のために残していることでしょう。 
しかし、このようなデータをサービスに対するユーザ行動ログとみなし、自社に蓄えられた購買データなどにデータを付与し分析していくことができます。まさにビッグデータによる社内データの活用の充実ということになります。今、さまざまな企業がインターネットを利用しつつサービスを展開していくので、多くの企業で活用でき、効果をあげる再現性のあるデータ分析ということになることでしょう。

我々はこの本を通し、実際のビジネスのなかで「ビッグデータ分析」を行なうことで、何ができるのか、どういうふうに役に立たせることができるのか、を示していきます。具体的に想定する読者ですがビジネスのビッグデータ分析に関心がある人を念頭に執筆しました。分析に関心がある人とは、ビッグデータ分析の活用を検討しているマーケティング職や企画職、経営層や管理職のかた、あるいは将来、ビッグデータ分析をする仕事に関心がある学生さん、あるいは働いて間もないビジネスパーソン、さらにはビッグデータ分析者と協力していきたい中堅のビジネスパーソンを想定しています。

収集目的が異なるため、フォーマットがそろっておらず、最初からはきれいではない、いくつかの前処理が必要なデータに対して、どう処理し結合し、どう統計解析の道具を活用していくのかについて紹介しました。
 本書は、前著「ビジネス活用事例で学ぶ データサイエンス入門」の姉妹本となります。前著では、キャリアとしてデータサイエンスという職務領域に関心をもつ人に、データをさばくコードの書き方、使い方を含めた形でその実態をお伝えしました。
一方本書では、書籍内から具体的なコードはいっさい排除し、データ処理の流れと、データの活用方法がよりわかりやすく伝わるようにしました。

データサイエンティストって何をやっているの?という人
データサイエンティストと協力しビジネスを展開している人
データサイエンティストと協力しビジネスを展開していきたい人

など、より広い読者に対して、今、このビッグデータ分析の領域で具体的にできることの一部をより分りやすくお伝えしたく思ってます。