注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
この本ではMasonとWiggins(2010)のデータサイエンスの定義に従って解析をすすめていきます。すなわち、(... この本ではMasonとWiggins(2010)のデータサイエンスの定義に従って解析をすすめていきます。すなわち、(1)データの獲得、(2)データのクレンジング、(3)データの精査、(4)データのモデリング、(5)データの解釈の5ステップです。(5)はコンピュータの出番が少ないこともあり触れていません。(3)にはデータの可視化なども含まれているようです。僕が感じたこの本の主な対象は(1)(2)であり、まごうことなき前処理本です。 コマンドラインの全オプションを説明するのではなく、例を通してsort, uniq, grep, cut, sample, head, tail, tr, sed, awk, curl, scrapeなどの基本的なコマンドラインをいかに組み合わせてデータを加工・集計するかの説明が丁寧であり、網羅的ではありませんがチュートリアルとして非常に有用だと思います。Linux
2019/01/01 リンク