17. Rを使った成績データの視覚化
• データを読み込む(Excelファイルから)
– たくさんのデータ(あるいは、その一部だけ)を簡単に読み込むには?
– 例として、「得点サンプルA」を使用
– 800人分の成績データ(クラス、性別、学部の情報つき)
# クリップボード経由で読み込む(Windowsのみ)
# 読み込みたい範囲をマウスで指定し、キーボードの「Ctrl」+「C」でコピーしてから
> dat001 <- read.delim("clipboard")
# (大きいデータなので)データの最初の部分だけを表示
> head(dat001)
student class sex faculty score
1 S001 1 M A 72
2 S002 1 F A 94 Macでは、
3 S003 1 M A 90 read.delim(pipe(“pbpaste”))
4 S004 1 F A 88
5 S005 1 F A 70
6 S006 1 M A 82
17
29. • 2つのテストの差を調べる
– t検定(平均値に差があるか、という検定)
# t検定(等分散を仮定)
> t.test(test.A, test.B, var.equal=T)
Two Sample t-test
data: test.A and test.B
t = 1.0401, df = 98, p-value = 0.3008
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.177805 10.177805
sample estimates:
mean of x mean of y
63.8 60.3
# 等分散を仮定しない場合(Welchの方法)は、var.equal=F
# その他、wilcox.test(Wilcoxonの順位和検定)など 29
36. • 因子分析(続き)
# 因子分析の結果の表示(続き)
寄与度・寄与率・累積寄与率
Factor1 Factor2
SS loadings 2.768 1.946
Proportion Var 0.554 0.389 元のデータの分散とモデルによる
Cumulative Var 0.554 0.943 分散との検定統計量
Test of the hypothesis that 2 factors are sufficient.
The chi square statistic is 1.73 on 1 degree of freedom.
The p-value is 0.188
– 因子分析では因子の数をいくつにするかが問題となるが、この分析にお
ける「因子数=2は妥当」(Test of the hypothesis that 2 factors are
sufficient)
36
44. • Rによる言語データ解析
Gries, S. Th. (2009). Gries, S. Th. (2009). Johnson, K. (2008).
Statistics for linguistics Quantitative corpus linguistics Quantitative methods in
with R. Berlin: Mouton. with R: A practical introduction. linguistics. Oxford:
New York: Routledge. Blackwell.
44
45. 参考ウェブサイト
• The R Project for Statistical Computing (Rの公式サイト)
– http://www.r-project.org/
• RjpWiki (Rユーザーのための掲示板)
– http://www.okada.jp.org/RWiki/
• 統計処理ソフトウェアRについてのTips
– http://phi.med.gunma-u.ac.jp/swtips/R.html
• 統計解析R Tips-統計解析ソフトRの備忘録 (PDF資料)
– http://www.is.titech.ac.jp/~shimo/class/doc/r-tips.pdf
• R-introduction(日本語版)
• http://cran.r-project.org/doc/contrib/manuals-jp/R-intro-
170.jp.pdf
• その他、日本各地のRコミュニティのサイト
– Tokyo.R、Tsukuba.R、Nagoya.R、Osaka.R、Hiroshma.R etc.
45
49. # 【練習問題 6】の答え
# Pearsonの積率相関係数
# 関数「cor」の引数methodをpearsonにする
> cor(test.C, test.D, method="pearson")
[1] 0.7170527
# 【練習問題 7】の答え
# t検定(等分散を仮定)
t
> t.test(test.C, test.D, var.equal=T)
Two Sample t-test
data: test.C and test.D
t = -3.1022, df = 58, p-value = 0.002966
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-19.63336 -4.23331
sample estimates:
mean of x mean of y
57.83333 69.76667 49