忘れないようにメモっとく

機械学習とかプログラミングとか。

2014-04-01から1ヶ月間の記事一覧

機械学習ハッカソンに行ってきました。

機械学習ハッカソンに行ってきました。 会場は、秋葉原アンダーグラウンド。アキバには妙に親近感を覚えます。 テーマは「機械学習を使ってなにかをする」ということで、使うデータは自由、手法も自由。R使ってもいいし、sklearn使ってもいいし、自分でアル…

awkで列の種類ごとに集計する。

awk

連想配列のキーにグループの名前を使えばおk。 集計するファイル↓↓ hoge.txt りんご 230 りんご 300 ばなな 190 ばなな 190 みかん 110 りんご 310 ばなな 190 みかん 110 みかん 130 awkファイル↓↓ sum.awk { sum[$1]+=$2 }; END { for (key in sum) { prin…

awkで列方向に集計する。

awk

合計、平均、分散、標準偏差 列方向の集計やりづらいなって思ってたけど、for (i=1;i<=NF;i++)使って楽チン。 集計するファイル↓↓ hoge.txt 840 394 783 798 911 197 335 768 277 553 477 628 364 513 952 916 awkファイル↓↓ sum.awk BEGIN { print "sum", "…

awkで重複行を高速削除する。

awk

awkで重複行を高速削除する。 行の重複削除で調べるとよく出てくるのが、sort & uniqを使ったコマンド。 ソートはファイルが大きくなると、実行にかなり時間がかかってしまいますね。 ソートせずに高速実行できるのが、次のawkコマンド。 awk '!colname[$1]+…