メモリに乗らないデータを読み込むパッケージの備忘録

メモリに乗らないデータをRでどう処理するかという問題は定期的に話題になる。

そのたびに「DBにつっこんでSQLで処理するじゃろjk」「せっかくだから俺はawkを使うぜ」「私のメモリは64GBです」などと喧々諤々しており既視感にとらわれるのだが、我々が古い道具でさばいている間にも世界は進歩しており、この問題に対応するパッケージなどが日々開発されている。

 

ということでざっと調べた結果を記録しようと思ったら、私自身も5年前にこういう記事を書いていた。何も覚えていない。ここで言及していたreadrパッケージもchunkedパッケージもまだメンテナンスされている。

dichika.hateblo.jp

 

私は知らなかったが、data.table::freadを内部的に用いるパッケージとしてbigreadrパッケージというものもあるようだ。

github.com

 

とりあえず備忘録としてこの記事を残しておく。