ビッグデータを活かすデータサイエンス -クロス集計から機械学習までのビジネス活用事例という本を執筆しました!

前回の書籍「ビジネス活用事例で学ぶデータサイエンス入門」の姉妹本つくりました。


今回のはライト層向けの啓蒙的書籍です。

  • コードは一切ないです。
  • 統計処理の解説をつけました。
  • 用語解説を充実させました。

データサイエンスってなにしているの?的なことを軽く読みたい方ぜひ!

以下、「はじめに」を抜粋します。

はじめに

人間の感覚はとても優れています。ときにはデータでわかること以上のことに実感を伴って理解していたりします。しかしながら一方で、ある部分ではいいかげんなため、ある一面においてデータ分析がビジネスで効果をあげているのではないかと。
そのある一面とは他人の気持ちを想像するという一面になると考えます。経験することで生まれた感覚がデータを超えた、とても優れている機能であることは間違えないのですが、どこまでいっても自分の感覚という域をでません。ビジネスでは他人の気持ち、みんなの気持ちを上手に理解できた人や組織が有利になります。ある一握りの才能がある人は自分の経験をもとに一般化し、他人の気持ちを推し量りながら上手にサービスに組み立て、多くの人から需要のあるサービスを構築していきます。しかしながらこれはほんの一握りの推測できる才能がある人であり、大半の人々には残念ながら結果的には、本当にうまく他人の気持ちを推測することが困難です。特になにかのサービスを作った場合に、お金を払ってでも本当に欲しいという気持ちをもつ人の、具体的な人数、を想像することはとても難しいことのように感じます。

そこで従来、他人の気持ちを推測するための手法として、アンケートやグループインタビュー、行動観察、クレーム分析、購買データ解析などさまざまなマーケティング分析が実施されてきました。
サービスを企画する人が自分の経験をふまえ他人の気持ちを推測した結果と、実際のみんなの気持ちとの乖離が大きければ大きいほどにデータ分析はビジネス効率を上げることに役立ちます。我々のこれまでの業務体験を振返ってみましても、さまざまな業種、さまざまな職域において、効果の大小こそあれ、他人の気持ちを定量的に推測することに対しては役立つことが多いです。

近頃「ビッグデータ」という言葉が注目されています。データ分析者の視点からみると、これはひとえに他人の気持ちを推し量る道具として期待されている一面が大きいように感じます。アンケートやグループインタビュー、行動観察など従来のマーケティグ手法では、多くの人数から気持ちをとりにくいという状況があるからです。また従来の方法ではとれなかった気持ちもとれるのではないかという期待感もあるのではないでしょうか。
インターネットの普及により、インターネット上にはさまざまな気持ちのデータが残るようになりました。例えば、Twitter 、Facebook などによる個々人の意見のログ、あるいはどの言葉に関心があるかという検索ワードのログ、どのページに関心があったかというようなアクセスログなどもあります。あるいはGPSの位置情報ログ、通話や通信ログ、定期券や TUTAYAカードによる駅の利用歴、コンビニなどの購買歴のような個々人の生活に関する行動ログも個々の企業にはのこりつつあります。
またデータ処理能力の向上により、画像解析や、大量なデータに対する複雑なモデリングなど、さまざまな計算が現実的な時間でできるようになってきました。
このような背景をもとに以下のように具体的な利用がされはじめています。みなさんも日常のなかで体験しているサービスもあると思います。

  • 商品の購買歴から、類似の商品を提案してくるレコメンデーションサービス

・ WEBの閲覧歴から、広告を提案してくるページ
・ 顔画像をもとに、買うべき飲み物を推薦してくる販売機
・ あるDVDを借りると、おまけでクーポンがでてきた
・ 人々のつぶやきから、株価があがりそうな銘柄をおしえてくれるサイト
・ 人々のつぶやきから、今人気のあるニュースを教えてくれるサイト

ビッグデータという新しいデータや、高速となった処理方法から、他人の気持ちを推測し、これを直接的につかっているサービスを紹介しました。これらのサービスは、データ活用の視点からみると大きく2つに分類できます。
「社外データの活用」と、「社内データの活用の充実」になります。

社外データとはつまりインターネット上のデータです。具体的にはTwitter 、Facebook などによる個々人の意見のログから株価があがりそうな銘柄をみつけることなどにあたります。あるいは自社が販売開始した商品に対するコメント数を見る。検索数を見る。などのマーケティング活用があります。こちらの社外のデータ活用は一定の効果があがりつつある分野ですが、その成果は主に金融業界に限られることも含め、ビジネスでの再現性という視点から見ると、現在、研究段階にあるように感じます。

一方で、社内データの活用ですが、従来、購買データや、営業データ、経理データなどから各組織では業務のロスを少なくしていく改善活動、業務の最適化が行われていたことと思います。つまり従来のデータ分析とは、自社に蓄えられたデータを各部署が処理し、業務を改善してきたということになります。
これに加え現在では、他の部署と連携したデータ分析ができるようになってきました。それは多くの業種がインターネットを利用しつつサービスが行われるようになってきたからです。例えば、各企業の情報システム部ではWEBのアクセスログを残していることと思います。本来の利用目的としては、システム負荷をみつつユーザ数とシステムとの最適化を検討するため、あるいはあるユーザが何かのトラブルになったときの障害対応のために残していることでしょう。 
しかし、このようなデータをサービスに対するユーザ行動ログとみなし、自社に蓄えられた購買データなどにデータを付与し分析していくことができます。まさにビッグデータによる社内データの活用の充実ということになります。今、さまざまな企業がインターネットを利用しつつサービスを展開していくので、多くの企業で活用でき、効果をあげる再現性のあるデータ分析ということになることでしょう。

我々はこの本を通し、実際のビジネスのなかで「ビッグデータ分析」を行なうことで、何ができるのか、どういうふうに役に立たせることができるのか、を示していきます。具体的に想定する読者ですがビジネスのビッグデータ分析に関心がある人を念頭に執筆しました。分析に関心がある人とは、ビッグデータ分析の活用を検討しているマーケティング職や企画職、経営層や管理職のかた、あるいは将来、ビッグデータ分析をする仕事に関心がある学生さん、あるいは働いて間もないビジネスパーソン、さらにはビッグデータ分析者と協力していきたい中堅のビジネスパーソンを想定しています。

収集目的が異なるため、フォーマットがそろっておらず、最初からはきれいではない、いくつかの前処理が必要なデータに対して、どう処理し結合し、どう統計解析の道具を活用していくのかについて紹介しました。
 本書は、前著「ビジネス活用事例で学ぶ データサイエンス入門」の姉妹本となります。前著では、キャリアとしてデータサイエンスという職務領域に関心をもつ人に、データをさばくコードの書き方、使い方を含めた形でその実態をお伝えしました。
一方本書では、書籍内から具体的なコードはいっさい排除し、データ処理の流れと、データの活用方法がよりわかりやすく伝わるようにしました。

データサイエンティストって何をやっているの?という人
データサイエンティストと協力しビジネスを展開している人
データサイエンティストと協力しビジネスを展開していきたい人

など、より広い読者に対して、今、このビッグデータ分析の領域で具体的にできることの一部をより分りやすくお伝えしたく思ってます。

第42回Tokyo.Rを開催しました。

第42回Tokyo.Rを開催しました!


今回は、いつもと違って、Y!Jのでの開催で、
株式会社Qubital(キュービタル)データサイエンスさんの社員の方々がスタッフをやってくださいました。
ありがとうございます!!


前半セッション

R入門(dplyrでデータ加工):@gepuro

ggplot2によるデータ可視化:@yokkuns

データ分析するときの4つの視点:@yokkuns

後半セッション

はじめようテキスト自動要約:@yamano357

http://rpubs.com/yamano357/27317

データハンドリング系の何か:所沢義男

LT

@motivic_:Rで代数統計

@weda_654:dummiesパッケージ

次回

9/20に開催予定です!

「手を動かしながら学ぶ ビジネスに活かすデータマイニング」を献本頂きました!

「手を動かしながら学ぶ ビジネスに活かすデータマイニング」を献本頂きました!
@TJO_datasci さん、ありがとうございます!



https://pbs.twimg.com/media/BvTnE0BCEAAD4TF.jpg


まだパッとみた感じではあるのですが、本書の内容としては、
各統計手法の解説を中心にビジネス応用する部分の入り口までうまく書かれています。

従来、統計手法の解説は、数式と言葉が中心でしたが、
この本では、概念図とコードとその結果という説明方法でとても分かりやすく書かれています。

著者のブログでも書かれているように、
まさに『統計学も機械学習も「直感的にわかる」』本になっているので、特に初心者の方におすすめです!

興味のある方は、ぜひ書店でお手に取ってみてください!


関連


一応、最近出た自分の書籍の方の宣伝もしておきます(笑)
こちらは、手法を直感的に理解というよりは、ビジネスでの使い方や考え方にフォーカスした本となっています。


また、これらを読み終わったら、きっと事例的なものが読みたくなる・・・はず!(無理矢理)


戦略的データマイニング (シリーズ Useful R 4) という本を執筆しました!

最近、本書いたエントリーしか書いてないんじゃないかと噂ですが、
今回も本書いたエントリーです!(笑)

前回の報告のときにも触れましたが、戦略的データマイニング (シリーズ Useful R 4) という本を執筆しました!
(ちなみに、初の単著です!)



この本は、自分のこれまでの経験をもとに構成していて、
例えば、エンジニアからデータ分析者になったときに感じたギャップや、
エンジニアの時には意識する事もなかったマーケティング戦略的な視点などを整理してみた本になっています。

整理する際には、いろんな切り口があると思いますが、
この本では、以下の三つの切り口で整理しています。

  • 解決すべビジネス課題を見つける
  • 何をすべきかの意思決定を支援する
  • アクションを自動化するためのロジックを作る


また、なるべく初心者向けにしたいなという思いがあったため、
この手の本では珍しく、数式を使わない方針で書いています。

ツールとして「R」を使ってはいますが、
ビジネスのデータ分析全般の入門書として読んでもらえると嬉しいです!

Rではじめるビジネス統計分析 という本を執筆しました!

Rではじめるビジネス統計分析 という本を執筆しました!


内容は、以下のような感じです。

御社のビッグデータから隠れた“X(宝)"を見つけ出せ!
2013年以降、企業内部で肥大化したビッグデータ(構造化されてない大量のデータ)を利用する動きが活発になってきています。
大量のデータを分析することで、ビジネスで言えば商品の売れ筋やトレンド情報の把握、予測などに役立てることができます。
本書は無料で利用できるRという統計ソフトを用いて、ビジネスの現場で役立つ専門的な統計分析について解説した書籍です。
Part1では、Rの使い方の基本について、Part2では統計分析の基本を、Part3ではサンプルを元にした本格的なビジネス統計データ分析手法について解説します。
全体を通して、入門的な要素を押さえつつ、本格的な分析手法まで丁寧に解説しています。
これ1冊で、ビジネスの現場で活用できる本格的な統計データ行うことができます。
またどの業界の方でも入りやすいように身近なサンプルを元に解説します。
数式や分析手法など、つまづきやすい部分については適時コラムなどで解説します。
なおRは最新の3.Xに対応しています。


途中でいろいろあって、かなりタイトなスケジュールになったのですが、いい感じにまとまってます。
興味ある方はぜひご購入ください!!

関連

以下の本も絶賛発売中なので、こちらもぜひ!


あと、初の単著ももう少しで出ます!

ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その2)

ビジネス活用事例で学ぶ データサイエンス入門 という本を執筆しました!



まだ発売前ですが、前回に引き続き、少しだけ中身を紹介してみたいと思います。
興味がありましたら、是非ご予約ください!

2.ビジネスにおけるデータ分析フロー

データ分析における5つのフロー

ビジネスにおけるデータ分析の目的は、ビジネスで発生したさまざまな問題を統計解析や機械学習、データマイニングの各種方法論を駆使して解決することと言えます。
ここで気をつけたいのが、あくまでも問題解決が目的ということです。

たとえば、データ分析専任の会社に分析を依頼したら、やたら難しそうな大量の資料がでてきた。
結論はよく考えると当たり前のことだった、といったことはないでしょうか? 
学術の分野からデータ分析者となった分析者、あるいはビジネスを熟知していない外部組織の分析に頼るときに良く起きる現象です。

高度で複雑なモデルによる高精度な分析結果は、実は必ずしもそれだけでは価値が高いとは言えません。
複雑なモデリングに時間をかけるよりも、簡単なクロス集計(分割表)を用いて短時間で分析結果を出したほうが、価値が高いということもビジネスの現場では珍しくはありません。
解決すべき問題に合わせて、「データ分析者」が分析方法の設計、実行できることが大事であり、
そこを誤ってしまうと、データ分析の価値は乏しくなってしまう可能性があります。

では、具体的にはビジネスにおけるデータ分析はどのように進めていくのでしょうか? 
それぞれの組織構造で若干の違いはありますが、大きくは以下のフレームワークで進められています。

...

現状とあるべき姿

「問題」は、そのときの、そのビジネスがおかれている環境から作り出される「あるべき姿」によって変わります。

例えば、野球好きが集まったとします。
みんな野球好きなので、「野球が上手くなりたい」という共通の目的がありますが、
人によっては、

  • 1年後にメジャーリーグに挑戦したい (無理っぽい)
  • 2年後の草野球で勝てればいい (効率悪い)
  • 3年後に全国大会に出たい (時間かかりすぎ)


と、理想像が異なっています。
このような理想がずれている状態で取り組んでも分析は上手く機能しません。
このような場合、まず現実的な時間と到達点を整理するのも分析者の仕事になります。

...

  • あるべき姿が明確でない時のイメージ


整理した結果、来年までにピッチャーが140km/hの玉を投げられる状態と決まったとします。
共通の理想像はすり合っている状態ですが、現状についてはまだ分かっていません。
人によっては、

  • もう139km/hくらい出てるよ (過大評価)
  • いやいや、まだ100km/h程度だ (過小評価)

と現状の認識が合っていません。
このような場合も、そのまま取り組んでも分析は上手く機能しないため、
まず現状の定量化するということから始める必要があります。

  • 現状が明確でない時のイメージ

問題発見

データ分析においては、「現象」と解決すべき「問題」とは、明確に区別する必要があります。
「売上が落ちている」や「顧客が離脱している」などは、ビジネスの文脈では通常「問題」として挙げられます。

しかし、データ分析の文脈では、実はこれらはただの「現象」にすぎません。
これらの「現象」をもとに、企画職・エンジニア職・サービス運用職など、ビジネス担当者でしっかりと議論し、
解決すべき「問題」を見つけ出すことが重要です。

...

  • 「現象」と「問題」とを区別する
  • 「あるべき姿」をイメージして、「現状」のギャップを意識する
  • 問題発見のための3つの切り口
データ収集と加工
  • データ収集

解決すべき問題が明確になったら、その問題を検証するために必要なデータを集めます。

...

  • データ加工

分析に必要なデータを収集したら、次は、分析するためにデータ加工を行ないます。
一般的なデータ分析の教科書では、分析手法の理解を目的としているため、その手法を実行するために都合の良いデータが用意されています。
しかしながら、実際のデータ分析の現場では、分析手法にあわせ、自分で都合の良いデータを加工していくことが必要となります。

...


データ分析

ビジネスにおけるデータ分析は、その問題の種類によって、「意思決定支援」と「自動化・最適化」の2つに大別できます。

まず「意思決定支援」のほうは、問題解決のためのアクションを人間が決定・実行するのを支援することを目的にしています。
そのため、人間が理解して適切な判断ができることが重要になってきます。
こちらを主眼としたデータ分析では、高度で複雑なモデルよりも、よりシンプルで理解しやすいモデルが効果的であり、クロス集計が活躍する場面です。

一方「自動化・最適化」のほうは、問題解決のためのアクションをコンピュータに実行させるためのアルゴリズムの構築が目的になります。
そのため、理解しやすさよりも、アルゴリズムの計算量と精度が重要視されます。

意思決定支援 自動化・最適化
目的 人間のアクション決定の支援 コンピュータのアクション支援
目標 コミュニケーションコストの低減 推定精度向上、計算量削減
良く使われる手法 単純集計、クロス集計 機械学習、アルゴリズム構築

...

  • 意思決定支援に役立つ統計解析
  • 自動化・最適化に役立つ機械学習
アクション

アクションは「人間が意思決定をして新たに何かをはじめる/やめる」ものと、
「アクションを実行するためのアルゴリズムを構築してコンピュータで実行させる」ものの2つがあります。
これは前述のデータ分析のところで説明した「意思決定支援」と「自動化・最適化」と対応しています。

...