« ビッグデータだけでは将来は予測できない~シグナル&ノイズの感想 | トップページ | 【公開】第6回品川Redmine勉強会発表資料「開発基盤としてのRedmine~Redmineをカスタマイズするポイント」 #47redmine »

2014/02/14

ビッグデータはプロセス改善を促進する

最近の統計学ブーム、データサイエンティストやらビッグデータなどのバズワードに関して、ラフなメモ書き。

【1】ビッグデータ: 言語は本当に重要か?

Twitter / akipii: ビッグデータ: 言語は本当に重要か? http://www.infoq.com/jp/news/2014/02/bigdata-languages#.Uv31cO3iSXw.twitter … PythonやRに人気があるらしい。「Rはデータサイエンスの博士号を持つ人たちには人気があるが、データが主流になるにつれて、Pythonが優位になっている」

統計学ブーム: プログラマの思索

業務やプロセスなどをIT化した場合、すぐに現れる利点は日々のトランザクションデータを分析することで、PDCAサイクルによるカイゼン、ないし、プロセス改善の元ネタになることだ。
なぜなら、日々の業務や業務プロセスのメトリクスを簡単に集計できるため、毎日の健康診断のように、業務プロセスの品質・コスト・進捗をリアルタイムにモニタリングできる。

メトリクスが正常な値から外れた異常値になっていれば、その業務は普通と違って何かおかしな状況が発生している、と推測することもできる。

ここで、業務システムで蓄積されたトランザクションデータというビッグデータは、ソフトウェア工学の観点ではメトリクス、経営の観点ではKPIと訳される。

Twitter / akipii: ソフトウェアが進化してビッグデータを容易に扱えるようになったおかげで、メトリクスの収集・集計・分析が非常にやりやすくなった。既に統計学や確率論の理論があるから、その仕様に従って、ソフトウェアを適用して仮説検証できる。ソフトウェアはPDCAサイクルというプロセス改善を促進する。

Twitter / akipii: プロセス改善にはメトリクスが必要。ソフトウェア工学ではメトリクスと呼び、経営ではKPIと呼ぶ。リーンスタートアップなら「measure」のプロセスがある。アジャイルでもVelocity、リーン開発ならサイクルタイムというメトリクスがプロセス改善の発火源になる。

だが、メトリクスは諸刃の剣。
個人の行動を対象としたメトリクスやKPIは、本来のあるべき行動を促進するのではなく、メトリクスの数値が高くなるような行動を引き起こし、その行動は局所最適化されやすい。
特に、ソフトウェア工学に出てくるメトリクスは、開発者のモチベーションを落とすようなメトリクスが多い。
もっと、開発者が生き生きとするようなメトリクスを提示して、開発者が自発的に行動するような雰囲気になるようにできないのか?
Googleの20%ルール、3M社の15%ルールのように、社員のモチベーションを生かすようなKPIが経営学ではあると言うのに。

Twitter / akipii: ソフトウェア工学には、バグ密度やテスト密度のように、なぜ、開発者のモチベーションを落とすようなメトリクスしか出てこないのだろう? もっと開発者のヤル気を起こし、ソフトウェア開発を促進させるようなメトリクスはないのか?他業界のKPIにはそのようなメトリクスがあると言うのに。

【2】Twitter / akipii:統計学のR言語とSQLの対応表の記事。これは面白い。気になるのはR言語の性能要件だがどうだろうか? RとSQLを対応付けてみた - あらびき日記 http://d.hatena.ne.jp/a_bicky/20110529/1306667230 …

統計学をプログラミング言語で実装して操作したい場合、R言語という別のプログラミング言語を使うのが多いらしい。
特に、データサイエンティストと呼ばれる人達は、R言語を使っている人が多いらしい。
そのR言語は、SQLに似たような構造があるようだ。
その指摘が正しいならば、とても興味深い。
R言語のようなデータ操作の言語は、SQLと同じく、集合論理の上で実装されるのだろうか?

また、OracleでR言語が使えるらしい。
RDBに貯められたデータをSQLだけでなく、R言語のような別のデータ操作言語で集計できれば、データの利用価値が上がるだろう。

Twitter / akipii:OracleデータベースをR言語で操作できるらしい。統計学の知識を生かしたプログラムが書けるだろうか。 Oracle R Enterpriseの概要 http://docs.oracle.com/cd/E49329_01/doc.121/b71357/intro.htm …


【3】Twitter / akipii: 得票数から散布図を(おそらく)R言語で作成して分析している。目の前のデータを散布図やパレート図で描画するだけでも、十分プロセス改善の元ネタになる。 23区のヤンキー度と反原発度 - 都知事選結果より ? タイトルは後で考える
http://cognitom.roon.io/23

23区のヤンキー度と反原発度 - 都知事選結果より ? タイトルは後で考える

先日の東京都知事選の分析のために、散布図を作成して批評している記事があった。
区別ごとに、候補者の得票率を並べただけだが、散布図の作成にR言語を使っているように思える。

散布図や回帰直線は、2つの変数に相関関係があるかどうかを見るために使われる。
数値を並べるよりも、グラフ化される方が分かりやすいし、インパクトも強い。
R言語のようなプログラミング言語を自由に操ることができれば、CSVの生データをいくらでも分析できる利点がある。

散布図などの統計学的手法を駆使した学術的結果として、下記のWebページがとても面白い。

社会実情データ図録 Honkawa Data Tribune

社会統計学は面白い: プログラマの思索

「酒呑みと愛煙家が多い県・少ない県」「世界各国のセックス頻度と性生活満足度」など、国が公開したオープンデータを上手く使って分析すれば、いくらでも面白い結果を得られるようだ。

このオープンデータの発想は、税金で収集され集計されたデータは、市民のものであり、市民がいつでも使えるようにすべきだ、というガバメント2.0の考え方に発展するだろう。
すなわち、国が保持している多様な各分野の社会統計データや、そのデータを取得するAPIを公開することで、新しい産業を生み出す可能性を秘めている。
日本政府もオープンデータや電子政府と言う概念で、普及に足を向けているようだ。

ティム・オライリー特別寄稿:ガバメント2.0―政府はプラットフォームになるべきだ | TechCrunch Japan

総務省|ICT利活用の促進|オープンデータ戦略の推進

電子行政:キーワード - オープンデータ とは:ITpro

【4】Twitter / akipii: この本を読みたい。ソフトウェアによるビッグデータ解析、いわゆるデータマイニングが簡単に実現可能になったらこそ、統計学が注目されてきた。 『異端の統計学 ベイズ』 "信念"を数字に - HONZ http://honz.jp/34624

僕は統計学は詳しくないけれど、ベイズ統計学は、高校数学で習ったいわゆる条件付き確率に関係しているらしい。
ベイズ統計の概念は、今まで日の目を見なかったらしいが、スパムメールのフィルタリングのアルゴリズムにも使われている。
こういう記事を読むと、きちんと学習して来なかった統計学をきちんと勉強したいと思う。


|

« ビッグデータだけでは将来は予測できない~シグナル&ノイズの感想 | トップページ | 【公開】第6回品川Redmine勉強会発表資料「開発基盤としてのRedmine~Redmineをカスタマイズするポイント」 #47redmine »

ソフトウェア」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« ビッグデータだけでは将来は予測できない~シグナル&ノイズの感想 | トップページ | 【公開】第6回品川Redmine勉強会発表資料「開発基盤としてのRedmine~Redmineをカスタマイズするポイント」 #47redmine »