エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す 前回の記事では、Hadoopクラ... Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す 前回の記事では、Hadoopクラスタ(というかHDFS)に収納されている、いかにもありがちなユーザー行動テーブルを、機械学習で扱いやすい素性ベクトル+分類ラベルのテーブルに直す、というお話をしました。 ここからがデータマイニングの本番です。 ここではどの機械学習分類器を使うのか?といった細かい議論は後回しにして*1、とにかくRを使ってどのように上記のテーブルに対して機械学習を実行するのか?について書いてみます。 とにかくR formula: 'y~x+y+z'の形に持って行く 既に前回の記事でも触れた通りですが、Rの関数群は大抵の作業仮説となるモデルを"formula"として与えられるように設定されています。 その書式については、とある方のブログ記事が分かりやすいと思いますのでまずはそちらをご参照のこと。要は、回帰