最近は、技術系の勉強会やイベントには参加していなかったので、大分久方ぶりの勉強会、イベントのメモの公開となってしまった。そんな今日は、秋葉原の 秋葉原UDX Conference 6F で開催された db tech showcase 2016 に参加してきたので、参加してきたセッションのメモを公開しておこうと思う。
参加してきたセッションは以下の 3 セッション。
- A11: (Panel Discussion) データ収集から予測モデルまで, テクノロジー最前線で戦うエキスパートが語る
- B13: Machine Intelligence at Google Scale. (Googleスケールの機械学習テクノロジー)
- E14: Machine Learning Made Easy by using Hivemall
同イベントは 2016-07-13,14,15 の 3 日間の開催なのだが、わたしが都合がついたのは本日だけなので、本日分以降については気になるセッションのスライドの公開等をおっかけてみようと思っている。
また、残念ながら、本日参加した最初のセッション 2 時間にも及んだパネルディスカッションについては、メモはおろかTweetすら自重してほしいということを言われてしまったので、 A11 の Panel Discussion のセッションについてはあたりさわりのないワタシ的超サマリを書いておくだけのものとしておく(超サマリな上に、誰が言ったということも書かないので、問題ない認識だが、これですら消してほしいということを言われたら、消そうとは思っている)。
では以降より、それぞれわたしのとってきたメモである。
A11: (Panel Discussion) データ収集から予測モデルまで, テクノロジー最前線で戦うエキスパートが語る
- メモを公開してはダメということだったので、ワタシ的超サマリ。
- (neta1) データ分析の課題は?
- データマネジメントが課題。
- ログフォーマットが統一されていなかったり、マッピングテーブルがなかったり。データクレンジング超大変。
- ここに関しては、データ分析チームそのもののマネジメントも課題という話がでてくるかと思ったんだが、それはなかった。
- データマネジメントが課題。
- (neta2) いま、気になるホットテクノロジーは?
- Google Cloud Machine Learning.
- 人工知能
- IoT
- (neta3) 2020 年のキャリアを考える。
- そんな未来のことなんて誰も分からない。変化に対応することが大事。もし仮に今、自分がやっていることが陳腐化しているなら、また学び直せばいいだけだと思うよ。
B13: Machine Intelligence at Google Scale. (Googleスケールの機械学習テクノロジー)
- @kazunori_279 : GCP のチームに所属。今はエヴァンジェリストのような仕事。
- What is Nueral NW and Deep learning.
- Neural NW is a function that can learn.
- Currently just a function.
- あらゆる関数を真似できる関数。
- ベクトルを入れるとベクトルが出てくる関数
- 任意のデータを処理することが可能。画像、音声に限らない。
- ゲームのプレイヤーの行動ログからチートしているユーザを導き出す。
- Inspired by the behavior of biological neurons.
- Demo. ( TensorFlow: Playground Example. )
- Need to specify the parameters.
- Human need to decide weights and thresholds.
- A neuron classifies a data point into two kinds.
- The computer tries to find the best parameters.
- Gradient Descent: changing the params gradually to reduce errors.
- Error が減る方向に重みを調整していく。
- e.g. OCR.
- e.g. 非線形
- ニューロンを増やすとその分、複雑性が増すが、その分賢くなる。
- more neurons -> more features will be extracted.
- e.g. 二重らせん
- e.g. 猫
- Hidden Layers.
- mapping inputs to a features space, classifying with a hyperplane.
- Need to specify the parameters.
- Machine Learning use cases at Google services.
- more than 60 production services at Google.
- Google Search.
- Rank Brain.
- Google Photos.
- Gmail
- Smart reply.
- Google Translate.
- OCR.
- Google Search.
- more than 60 production services at Google.
- Externalizng the power with ML APIs.
- ML APIs.
- 学習済みなので学習できない。ただし、
- Cloud Vision API.
- Image alalysis with pre-trained models.
- REST API
- GA.
- Features.
- Faces
- Label
- OCR
- Logos
- Safe Search
- Landmarks and Image Properties.
- Pricing table.
- Cloud Speech API.
- Pre-trained
- REST API
- 80+ languages.
- [PR] What is Cloud Speech API? (youtube)
- only need 50 lines of code to realize above video.
- コールセンターの文字起こしとかに使われ始めている。
- Cloud Natural Language API (this is still not open information)
- Pre-Trained.
- ML APIs.
- TensorFlow: the OSS library for Machine Intelligence.
- TensorFlow.
- OSS library for machine intelligence.
- tensorflow.org launched in Nov 2015.
- #1. repository.
- Github: Machine learning category.
- After TensorFlow. (Simplified.)
- Easy NW design and impl.
- Train with single machine.
- Train on the cloud.
- Prediction on the cloud or mobile/IoT devices.
- TensorBoard: visualization tool.
- Portable and Scalable.
- enabled to train on
- Mac/Win
- GPU server
- GPU cluster / Cloud
- Prediction enabled on
- Androids and iOSs
- RasPi and TPU
- enabled to train on
- Distributed TensorFlow.
- Use cases.
- からあげロボット
- 自動運転車
- アイドル顔認識(すぎゃーん氏)
- 漢字
- アート (漢字っぽいなにか)
- TensorFlow.
- Distributed Training and Prediction with Cloud ML.
- Jupiter Network.
- 10GbE x 100K = 1Pbps.
- Google Cloud + Neural NW = Google Brain.
- RankBrain: 300x with 500nodes.
- Inception / ImageNet: 40x with 50GPUs
- Cloud ML
- distributed training and prediction
- Training at local 8.3hr becomes 32min.
- Tensor Processing Unit.
- Jupiter Network.
E14: Machine Learning Made Easy by using Hivemall
- @myui
- 201504 joined TD.
- Research Engineer at TD.
- TD cloud services.
- fluentd
- embulk
- JS SDK
- 900,000 records stored per sec. 100x twitter's tweets.
- ML
- Hive Batch
- Presto
- 201504 joined TD.
- What is Hivemall.
- scalable machine learning library built as a collection of Hive UDFs.
- Apache License V2. OSS.
- List of supported Algorithms
- Red colored algorithms are popular algorithms.
- Soft confidence Weighted (SCW) is a good first choice. Try RandomForest if SCW does not work.
- Logistic regression is good for getting a probability of a positive class.
- Factorization Machines is good where features are sparse and categorical ones.
- List of ALgorithms for Recommendation.
- K-nearest Neighbor.
- Matrix Completion.
- Matrix Factorization.
- Other supported Algorithms
- Feature engineering.
- Anomaly Detection.
- NLP.
- kuromoji.
- Industry use cases.
- Adtech
- Freakout Inc., Fan communication, and more.
- Replaced Spark MLlib w/ Hivemall at Company X.
- Gender prediction of Ad click logs.
- Scaleout Inc.
- Value prediction of Real estates.
- Livesense.
- Churn Detection.
- OISIX
- Adtech
- Whye Hivemall.
- motivation for hivemall. make more easier to use ML.
- Before hivemall he needed to use hive for preprocessing and Python for ML. Feels not EFFICIENT and ANNOYING. And those are not scalable.
- Existing distributed ML frameworks are not easy to use.
- Mahout.
- Spark MLlib/MLI
- H2O
- Cloud Oryx
- Vowpal Wabbit
- Hivemall vision.
- ML made easy for SQL developers.
- Interactive and Stable API w/ SQL abstraction.
- Hivemall on Apache Spark.
- motivation for hivemall. make more easier to use ML.
- How to use Hivemall.
- Define a Hive table for training/testing data.
- Feature engineering.
- Applying a Min-Max Feature Normalization.
- Training
- ex. Training by logistic regression, Confidence Weight Classifier.
- Prediction.
- LEFT OUTER JOIN between test data and prediction model.
- No need to load the entire model into memory.
- LEFT OUTER JOIN between test data and prediction model.
- Real-time Prediction.
- Export prediction model to RDBMS (MySQL/PostgreSQL).
- using TD export or Sqoop.
- index lookups are very efficient in RDBMSs.
- Export prediction model to RDBMS (MySQL/PostgreSQL).
- Conclusion
- Hivemall provides a collection of machine learning algorithm as Hive UDFs/UDTFs.
- For SQL users needed ML.
- For whom already using Hive.
- Easy of use and scalability in mind.
- Spark also compatible.
- easy installation. just do following command.
- $ spark-shell --packages maropu:hivemall-spark:0.0.6
- easy installation. just do following command.
- Hivemall provides a collection of machine learning algorithm as Hive UDFs/UDTFs.
では、メモは以上です。 今回は、こんなところで。 (資料等の公開があれば、リンクを載せたりはあとでしようと思う。)