2014-10-01から1ヶ月間の記事一覧
日本語の説明がなさそうなので。 概要 pandas では groupby メソッドを使って、指定したカラムの値でデータをグループ分けできる。ここでは少し凝った方法を説明。 ※ dtアクセサ の追加、またグルーピング関連のバグ修正がいろいろ入っているので、0.15以降…
Rで時系列データの周期特性をちゃっと確認したいとき、monthplotという関数を使うとデータを月次に分割してグラフ作成してくれる。 monthplot(AirPassengers) が、出力がちょっとアレなのと 月次以外の周期性をみたい場合があるので、 ggplot2 で作ってみた…
マルコフ転換モデルとは 数式を使わない説明。 サーモンとインターネット広告とマルコフ転換モデル|インターネット広告代理店で働くデータサイエンティストのブログ マルコフ状態転換モデルのRパッケージ{MSwM}の使い方(異常値検出・ステータス変化検出な…
パッケージを書いた。 つかいかた RPubs - Plotting Time Series with ggplot2 and ggfortify RPubs - Plotting Time Series Statistics with ggplot2 and ggfortify RPubs - Plotting PCA/clustering results using ggplot2 and ggfortify RPubs - Plotting…
普通はこんなことやる必要ないですが、、、主成分分析 prcomp 関数の結果のみを引数にして、元データ込みの処理を行う関数がどうしても書きたかったので。 # 元データ head(iris) # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 …
pandas の DataFrame を R へ渡す/また R から Python へデータを戻す方法について、本家のドキュメント が書きかけなのでよくわからない。ということで 以前 下の文書を書いたので訳してみる。 DOC: Complete R interface section by sinhrks · Pull Reques…
Python の Canopy ディストリビューションで有名な Enthought.inc が作っている traits, traitsui というモジュールが結構便利なのだが、日本語の情報がないのでメモ。 概要 traits は Python のクラスプロパティに特定の型を強制できるモジュール traitsui …
これの pandas 版。 R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments 準備 サンプルデータは iris で。 補足 (11/26追記) rpy2 を設定している方は rpy2から、そうでない方は こちら から .csv でダウンロードして読み込み (もしくは…
これの続き。よく使う集約/変換処理もまとめておく。 Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments 準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Se…
先ほどの R の記事と同じ操作を Python pandas でやる。 Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments Python の場合は Rのようなシンボルの概念がないので、変数が評価される環境を意識する必要が(あまり)ない。 準備 サンプル…
R を使っていると、組み込み型の data.frame と大規模データ用パッケージである data.table の差異で思わずはまることがあるので使い方をまとめる。どちらか一方しか使わないようにすれば 差異を気にする必要はないのかも知れないが、、。 基本的には データ…
データカタログサイト data.go.jp が本稼働したので、そこからデータを pandasのデータフレームとして取得するモジュールを書いた。 日立、オープンデータポータル「DATA.GO.JP」本稼働 data.go.jp に限らず data.go...系は CKAN で構築されていることが多い…
こちらの survival 版: ggplot2でforecastインスタンスを描画する - StatsFragments 同じように survfit 用の fortify を定義すればよい。lung(肺ガンデータ)を使って、男女別のKaplan-Meier曲線を描いてみる。 library(survival) library(ggplot2) library(…
最近 時系列データを forecast パッケージを使って処理している。便利! library(forecast) d <- AirPassengers d.arima <- forecast::auto.arima(d) d.forecast <- forecast(d.arima, level = c(95), h = 50) plot(d.forecast) この結果を、総称関数 plot …