(テキストの内容等は、許可なく転載できないので、あくまで参加してきた感想に絞っています。これから受けるかどうか迷っている方の参考になれば幸いです。)
➤ トレーニング概要の紹介
このトレーニングは5 日間でビッグ・データおよびその他の分析プロジェクトに参加して効果を上げられるようになるための基礎レベルの知識を習得するものです。
ただ基礎レベルとは言ってもカバーしている内容は以下の通り、かなりのボリュームになっているので、大変タフなトレーニングでした。
- Module1: ビッグ・データ分析の概要
- ビッグ・データの概要 / 分析の実践状況 / データ・サイエンティスト / 各業種でのビッグ・データ分析
- Module2: データ分析ライフサイクル
- 調査 / データ作成 / モデル・プランニング / モデル構築 / 結果の伝達 / 運用化
- Module3: R を使用した基本データ分析方式の確認
- R を使用したデータの参照 ― R の紹介 / データの分析と調査 / モデルの構築と評価に関する統計
- Module4: 高度な分析 ― 理論と方式
- K 平均法クラスタリング / 関連性ルール / 線形回帰 / ロジスティック回帰 / 単純ベイズ分類器 / 決定木 / 時系列分析 / テキスト分析
- Module5: 高度な分析 ― 技術とツール
- 構造化されていないデータの分析 ― MapReduce および Hadoop / Hadoop エコシステム / データベース内の分析 ― SQL の要点 / データベース内の分析のための高度な SQL と MADlib
- Module6: 最終段階とまとめ
- 分析プロジェクトの運用化 / 最終成果物の作成 / データ・ビジュアル化技術 / ビッグ・データ分析に関する最終実習
講義の進行は日本語と英語で行われます。(英語は同時通訳がつきます)
テキストも日本語と英語のものが両方用意されました。
毎日、講義の始まりにはその日の講義の内容に即した動画が共有されます。
最もこの講義の中で重い比重がおかれているのは R を使った統計の手法で上記でいうと 「Module4: 高度な分析 ― 理論と方式」に 2 日ほど費やされます。
トレーニング終了後には、実習で使ったテキスト類を電子でもらえます。
実習で使ったのと同等の環境が家からアクセス可能になるようです(来週になったら環境をもらえるようです)。
参考: EMC Data Science and Big Data Analytics Training 概要 / E20-007 試験概要
➤ わたしの本トレーニングの感想
素晴らしかった点
- 統計の手法を体系的に学べる。
- 先にも書きましたが主な焦点は "R" を使った統計手法を学ぶところにあたっていました。
- 実習が豊富。
- 講義と実習が半々くらいです。
- あまり EMC EMC していない。
- "R" も "Hadoop" も OSS ですので EMC のベンダーロックインになるような講義内容にはなっていない。普遍的な業務に活用できる。 DB を使った解析が "Gleenplum" を使ってやることになることくらいはご愛嬌レベルかな、と。
- 講義の最初にその日の講義内容に沿った動画を紹介する動画がモチベーションをあげてくれます。ちなみに紹介されてた動画は次の三つです。
微妙だった点(注意点)
- 講師も Data Analytics のプロというわけではない。
- この講義を受けたから即 Data Scientist になれるわけではない。
- Data Analytics の基礎を学ぶ講習だという認識で参加するのが正しいと思います。 "Big Data" を冠してはいるが、あまりその色は強くありません。マイニングや機械学習などは、そういうものがある、程度の扱いになっています。
- Data Scientist と呼ばれるような人は、今の日本だと一企業に一人いればいいほう(むしろいないでしょ、と)だと思います。なので、このトレーニングにでて Data Scientist になれる、なんて思う人はそもそもいないとは思いますが、念の為に書いておきました。 2012-12-17 20:37 追記
- 個人的には同時通訳はいらなかった。
- 最初は、あるなら使おうかと思っていたのですが、むしろ日本語と英語が右と左の耳から交互に聞こえてくるので、まったく集中できなかったので、使うのはやめさせてもらいました。必要だという人はいると思うので完全否定はしないですが、いらないという人には講義代金を若干でも割り引くとかそういう工夫があるとより良いと思いました。
個人的な総括
- わたしの場合は、このエントリでも書いたとおり、体系的な統計の手法を学んでみたいと思っていたので、とてもわたしのニーズにあったトレーニングだったなと思っています。
- ただし、冒頭にも書いたとおり、大変にボリュームのあるトレーニングなので、わたしは消化不良を起こしてしまっているので、これから実務で役立てられるよう復習を繰り返そうと思っています。
- よりデータ・マイニングや機械学習などは途中で書いた通り、ふれる程度ですので、そこに期待している人は別のトレーニングをオススメします。(いいのがあるか、わたしも今は知りませんが)
➤ テキスト内で紹介されていた本
➤ テキストの中で紹介されていたリンク:
Module1
Module2
Module3
Module4
- A Comparison of Commonly Used Interest Measures for Association Rules
- Win-Vector Blog » Logistic Regression
- Bayesian spam filtering - Wikipedia, the free encyclopedia
- Detecting Auto Insurance Fraud by Data Mining Techniques
- An Improved Switching Hybrid Recommender System Using Naive Bayes Classifier and Collaborative Filtering - ePrints Soton
- In praise of Bayes | The Economist
- Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition.
Module5
- Welcome to Apache™ Hadoop®!
- Apache Mahout: Scalable machine learning and data mining
- PostgreSQL: Documentation: 8.3: Pattern Matching
- Greenplum〓 Database 4.1 Administrator Guide
- New Analysis Practices for Big Data
- MADlib
- MADlib user forum
- Introduction to Information Retrieval
- Choosing a good chart - The Extreme Presentation(tm) Method
- Data-Ink Ratio - InfoVis:Wiki