2014-02-01から1ヶ月間の記事一覧

流行りものが好きだから俺はStrata2014をメモるぜ

日本のみんなはオライリーの値引きセールがあったら騒ぐわりに年に一度のオライリー大感謝祭Strataについては騒がない。残念です。 http://strataconf.com/strata2014/public/content/home 仕方がないからいちいち英語を読んで情報収集している。めんどい。 …

思い出して下さい、[は関数です

%.%思考になると少しでも多く%.%を使いたくなります。 たとえばirisデータにおいてSpecies以外の列ごとの和を求める際、通常ならこうやると思います。 iris[,-5] %.% colSums() しかしこれでは1 Hitにしかなりません。 私ならこうやります。 iris %.% "["(,-…

google driveのデータをread.csvする

R

公開しているgoogle driveのデータをread.csvできない。 いや、通常のRやRStudioではできるんだけど、RStudio上でknitHTMLすると「コネクションを開けません」なるエラーが出る。 しかたがないのでRCurlのgetURL経由で読み込んだ。 library(RCurl) s <- "htt…

%.%を耳で感じるパッケージpingsを作りました

dplyrヘビーユーザーの皆さんはきっと%.%を多用されていることかと思います。 気持ちよいですよね%.%。 そんな気持ち良さを耳で感じて皆さんの%.%ライフを加速させるパッケージを作りました。 pings関数について pingsパッケージの内容はpings関数のみです。…

50 smartest companiesはどこにある

データジャーナリズムにおいて肝となるのが、データの取得と可視化です。 一億総データジャーナリストの時代、この2つのスキルは常に磨いておく必要があるでしょう。 ということで今回は以下の記事にある50 smartest companiesが世界のどこにあるのかを可視…

dplyrとデータベース

dplyrはデータベースにつないでそのままfilterやらsummariseでいじくりまわすということができる。 その紹介記事を書いた。 http://rpubs.com/dichika/dplyr_db

dplyrの簡単な紹介記事

vignette読めばいいのだが時間のない日本人のためにvignetteを抄訳したような記事を書いた。 http://rpubs.com/dichika/dplyr_intro enjoy!!!

オフラインでもslidifyを使う

プレゼンするのが自分だったら色々注意も払えます。 ですがプレゼンするのは往々にして他人です。 そうなると極力リスクは排除していきたい。 オンラインを想定していてもオフラインでプレゼンするはめになることも多々あるでしょう。 slidifyは現在onefile…

interactiveなことをやるためにslidifyを始める

Rの結果をそのまま文書化したい。 というような欲は私にはありません。 うちはパワーポイント文化なんだ。 ただrChartsなどを使ったinteractiveな図は現行のパワーポイントでは実現できない。 ということでやむなくR markdown系の話に手をだすことにする。 …

ランダムフォレスト雑感

R

最近はGBMばっかりでランダムフォレストは噛ませ犬的にしか使わないんだけどたまに話題に出るのでまとめておく。 Alternating Decision Forests 下記ランダムフォレストの資料の中で触れられているAlternating Decision Forestsが気になった。 http://www.ha…

Rからメールを送りたい(ただしGmailで)

R

Rからメールを送りたい。 検索したらこんなサイトが出てくる。 sendmailRやEasyHTMLReportなるパッケージがあるがどうやらGmailには対応していないっぽい。 http://blog.yhathq.com/posts/building-email-reports-with-r.html Gmailは使えないのかと探したと…

rChartsのnPlotに関するメモ

rChartsを使って要介護認定の状況を可視化した。 http://rpubs.com/dichika/youkaigo その際色々と困ったのでメモ。 今回はd3.jsのライブラリの中でもNVd3nを用いるnPlotを可視化に使ったので、その話がメインになるが、それ以外のライブラリを使う場合もや…

AWS上でRとIPythonをささっと入れるためのスクリプト

data scientistとして名高いDrew Conwayが作った便利スクリプトData Science Box。 https://github.com/drewconway/data_science_box

rbind_allにおけるfactorの扱いについて

rbind_allをfactorを含むデータフレームに使うと挙動が安定しないとのコメントをいただいたのでさらっと見てみました。(musimasamiさんありがとうございます) ラベル名が異なる場合 警告付きでcharacterで返ってきます。 rbindの場合、レベルを追加してfac…

dplyrの使用例をまとめる

別に私dplyrのエバンジェリストでもなんでもないんですが、dplyrを使っていく上で使用例をいくつか調べたので共有します。 まだそんなにたくさんないので英語か日本語かというだけで分けています。 dplyrの使い方紹介(vignette)はこちら。 http://cran.rst…

Grammer of Graphicsでplotしたい

Grammer of Graphicsという本があります。 http://www.amazon.co.jp/dp/0387245448 分析を進める上での可視化のあり方を説いた本です。 その思想の中核はとりあえずデータを可視化してその分布を確認していくというアドホックな分析思考を「layerを重ねてい…

%.%演算子の中身

こんな話があります。 http://stackoverflow.com/questions/21477040/reshape2-multiple-results-of-aggregation-function/21485258?stw=2#21485258 %.%でつなげていけるのはdplyrの関数だけかと思い込んでいたのだがそんなことはない。 helpのdescriptionに…

ダークサイドに落ちたRを救うvadrパッケージ

R

R has been seduced by the dark S of the Force. It is more PHP now than Lisp. Its mind is twisted and evil. But there is good in R, I can feel it. I can save it. I have to try. https://github.com/crowding/vadr/こちらからは以上です。

rbind_allめちゃ速い

(rbind_allはdeprecatedとなっており、代わりに現在はbind_rowsが推奨されています)データフレームを縦に結合していく時、皆さんdo.call("rbind", list(data1, data2, data3))みたいなことやっていると思います。 しかしdplyrにC++で書き直されたrbind_all…

data.tableの便利演算子

R

せっかくdata.tableを使うんなら便利演算子も知っておきたい。 今回は%like%と%between%の2つをご紹介。 知っておくとちょっとデータを見たい時とかに使えるかもしれない。 library(data.table) # likeの例 fla <- read.csv("http://www.jspanish.com/fla.c…

複数のWordファイルをPDFに変換してページ指定して印刷する

一つ20MB弱のWordファイルを50いただきました。 サイズが大きすぎるせいか印刷すると一部の画像が真っ黒になります。 よくある話ではあるようで。 http://okwave.jp/qa/q6238331.html PDFにすることで真っ黒は避けられることがわかりましたがファイル数が多…