ほくそ笑む

R言語と統計解析について

統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ

はじめに

統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。
しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。
統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。
それでは実際のデータをどうやって手に入れましょうか?
実験や調査をして実際のデータを得るのは大変でお金もかかります。
幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。
例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。
ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。
英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。
というわけで、今日は、統計初学者のために、Rデータセットのうち、日本語訳のあるものをまとめてみました。*1

データセット一覧

データセット名 タイトル 説明 詳細 DL
airmiles 商用航空会社マイレージ 1937年から1960年の各年の、合州国の商用航空会社の課税利用者マイル数。 詳細 DL
airquality ニューヨークの大気状態観測値 ニューヨークの大気状態観測値。1973 年の五月から。 詳細 DL
anscombe ``同じ'' 線形単回帰に対する Anscombe の四つ組 同じ通常の統計的性質(平均、分散、相関、回帰直線)を持つが、全く異なる 四つの x-y データセット。 詳細 DL
attenu Joyner-Boore の地震波の減衰データ このデータはカリフォルニア州の 23 の地震のピーク時加速度を、様々な観測基地で測定したデータを与える。このデータは多くの研究者により、基本加速度に対する距離による減衰効果を推定するために用いられてきた。 詳細 DL
attitude 管理者に対する態度 (まだ)無い。 詳細 DL
cars 車の停車距離 車が停車するまでに必要な距離のデータ。 データは 1920 年代に得られたことを注意せよ。 詳細 DL
co2 Mauna Loa 火山の大気中の炭酸ガス濃度 大気中の CO2 濃度が百万分の一単位 (ppm) で表され、preliminary 1997 SIO manometric mole fraction scale で報告されている。 詳細 DL
discoveries 重要な発見の数 1860年から1959年の各年における ``偉大な'' 発明と科学的発見の数。 詳細 DL
esoph 喫煙、アルコールと食道ガン フランスの Ile-et-Vilaine における食道ガンの類別研究のデータ。 詳細 DL
euro ヨーロッパの為替レート 様々なヨーロッパの通貨の交換比率。 詳細 DL
eurodist ヨーロッパの都市間の距離 このデータはヨーロッパの21の都市間の道路距離(km 単位)を与える。 データは ``The Cambridge Encyclopaedia'' 中の表から取られた。 詳細 DL
Formaldehyde ホルムアルデヒドの定量 これらのデータは、クロム酸と濃縮硫酸を加えた結果生ずる紫色を分光計で 読みとるホルムアルデヒドの定量用の標準カーブを用意する ために行われた化学実験による。 詳細 DL
HairEyeColor 統計の講義を受講している学生の髪と瞳の色 統計の講義を受講している 592 人の学生の髪、瞳の色と性別の分布。 詳細 DL
infert 自然・人工流産後の不妊症 これは条件付きロジスティック回帰が登場する前に行われた対応対照群研究である。 詳細 DL
InsectSprays 昆虫への薬剤噴霧の効果 異なる農薬を散布した農業実験単位毎の昆虫の計数値。 詳細 DL
iris Edgar Anderson のあやめのデータ この有名な(Fiher もしくは Anderson の)あやめのデータセットは、三種類のあやめの品種のそれぞれからの 50の花の、センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。 品種は Iris setosa, versicolor そして virginica である。 詳細 DL
islands 世界の主要な陸地の面積 10,000 平方マイルを越える陸地の千平方マイル単位の面積。 詳細 DL
LifeCycleSavings 各国の世代毎の貯蓄データ 1960 - 1970 の貯蓄データ。 詳細 DL
OrchardSprays 果樹園への散布液の効果 果樹園への散布液の様々な成分が 蜜蜂を忌避する効果を確かめる実験が、ラテン方陣デザインを用いて行われた。 詳細 DL
PlantGrowth 植物の成長に関する実験の結果 対照群と二つの異なった処理条件のもとで得られた、収穫量(乾燥重量で計った)を比較する実験の結果。 詳細 DL
Titanic タイタニック号乗客の生存 このデータセットは大洋定期船 `Titanic' の破滅的な処女航海の乗客の運命に付いての情報を、経済的地位(船室等級)、 性別、年齢、そして生還の有無で要約して与える。 詳細 DL
ToothGrowth ギニアピッグの歯の成長に対するビタミン C の効果 三種類のビタミン C の投与量(0.5, 1, そして 2mg)、二種類の 摂取法(オレンジジュースまたはアスコルビン酸)に対する、各々10匹のギニアピッグ(訳注: いわゆるモルモット)の 造歯細胞(æ­¯)の成長量。 詳細 DL
UCBAdmissions カリフォルニア大学バークレイ分校の学生入学 1973年のバークレイ校大学院の六つの最大学部の受験生の総合的データで、入学状況と性別で分類されている。 詳細 DL
USArrests 合州国の州別暴力犯罪率 このデータセットは 1973 年の合州国の 50 の州毎の、住民10万人あたりの暴行、殺人、そして強姦による 逮捕数を含む。また都市部人口の割合が与えられている。 詳細 DL
USJudgeRatings 弁護士による合州国最高裁判事の評価 弁護士による合州国最高裁判事の評価 詳細 DL
USPersonalExpenditure 個人消費データ このデータセットは、1940,1945, 1950 そして 1960 年における、 次の各項目の合州国の個人消費(単位 10 億ドル)データを含む: 食品とタバコ、家事、医療と健康、趣味、教育。 詳細 DL
VADeaths 死亡率データ 1940年代のバージニア州の100人あたりの死亡率。 詳細 DL
women 米国女性の平均身長と平均体重 30歳から39歳のアメリカ人女性の平均身長と体重。 詳細 DL

上記のデータセットを適用可能な解析手法で分けるとこんな感じです。*2

回帰 anscombe, attitude, cars, esoph, Formaldehyde, iris, LifeCycleSavings, Titanic, ToothGrowth, women
分散分析 HairEyeColor, infert, InsectSprays, PlantGrowth, Titanic, ToothGrowth, UCBAdmissions, VADeaths
多変量解析 airquality, attenu, attitude, eurodist, iris, LifeCycleSavings, OrchardSprays, USArrests, USJudgeRatings
時系列解析 airmiles, co2, discoveries, infert

例えば、線形回帰を学んだら、anscombe データに線形回帰モデルを当てはめてみると、大変勉強になると思います。
統計言語 R を使っているなら、

example(anscombe)

のように、example() 関数によって、そのデータセットに対する解析例を見ることもできます。

さらにデータを得たい人へ

さらにデータを得たい人のために、下記に参考になるサイトを紹介しておきます。
データセット一覧 : DoDStat@d
日本語の説明があるデータセット集。適用できる解析手法も併記されていて便利。
http://www.okada.jp.org/RWiki/?%A5%D5%A5%EA%A1%BC%A4%CA%A5%C7%A1%BC%A5%BF%A5%BB%A5%C3%A5%C8%A4%D8%A4%CE%A5%EA%A5%F3%A5%AF%BD%B8
フリーなデータセットを提供するサイトへのリンク集。このページ自体は日本語ですが、データのあるリンク先は英語です。
R: The R Datasets Package
R のデフォルトデータセットのヘルプページ。R にはこの他にもパッケージに付属するデータセットがたくさんあります。
http://www.okada.jp.org/RWiki/?%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8%20%27datasets%27%20%A4%CE%BE%F0%CA%F3
R のデフォルトデータセットの日本語説明。(2012/02/24追記)

R言語 標準データセットの私的まとめ

*1:日本語訳はすべて東工大間瀬先生のサイト http://www.is.titech.ac.jp/~mase/mase/html.jp/temp/ によります

*2:かなりてきとーです