統計学の基礎の基礎

統計学の基礎の基礎
2015/10/2
Ken ichi Matsui

自己紹介
・Facebookページ
https://www.facebook.com/matsukenbook
・Twitterアカウント
@kenmatsu4
・Qiitaでブログを書いています（統計、機械学習、Python等）
http://qiita.com/kenmatsu4
（3500 contributionを超えました！）
・趣味
- バンドでベースを弾いたりしています。
- 主に東南アジアへバックパック旅行に行ったりします
（カンボジア、ミャンマー、バングラデシュ、新疆ウイグル自治区 etc）
旅行の写真 : http://matsu-ken.jimdo.com
Twitterアイコン

・統計学で何ができる？
・統計学の２つの目的
・グラフを描こう
・基本統計量平均、分散、標準偏差って何？
・相関係数
・標本調査（母集団と標本）
・推測
・仮説検定（さわりだけ）
・おわりに
今日のアジェンダ

1.統計学で何ができる？

薬の効果の検定
グループごとに条件を変えて、その結果に違いが
あるかを検定する
とある薬を飲んだ
グループ
とある薬を飲んでいない
グループ

Webサイトのレイアウト変更
A/Bテスト
検索
広告
検索
広告
広告パターンA 広告パターンB
変更してみる

A/Bテスト
取得したデータ
クリックしたクリックしない
広告パターンA 25 (18%) 117 (82%)
広告パターンB 10 (24%) 32 (76%)
検索
広告
検索
広告
変更してみる

A/Bテスト
広告パターンA 25 (18%) 117 (82%)
広告パターンB 10 (24%) 32 (76%)
検索
広告
検索
広告
変更してみる
どちらが効果がある？

A/Bテスト
広告パターンA 25 (18%) 117 (82%)
広告パターンB 10 (24%) 32 (76%)
どちらが効果がある？
検索
広告
検索
広告
変更してみる
実は差がない！

> ab_data <- matrix(c(25,117,10,32), ncol=2, byrow=T)
> chisq.test(ab_data)
Pearson's Chi-squared test with Yates' continuity correction
data: ab_data
X-squared = 0.45721, df = 1, p-value = 0.4989
A/Bテスト
計算してみると、
もしこの実験を繰り返すことが
できたとすると、49.9%くらいの
確率でこれくらい(これ以上)の差は
発生しうる。
→ 施策に効果があるとは言えない！

例：とあるアイスクリーム店の前の通行人と売上の関係
回帰分析

・記述統計
・推測統計

記述統計
トータル
最高スコア 990
最低スコア 10
平均スコア 583.7
標準偏差 170.1
例：TOEIC公開テスト第202回の試験
→ 第202回の受験者全員を対象にデータを要約
http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.html
http://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html

記述統計
トータル
最高スコア 990
最低スコア 10
平均スコア 583.7
標準偏差 170.1
例：TOEIC公開テスト第202回の試験
→ 第202回の受験者全員を対象にデータを要約
http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.html
http://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html
手元のデータを
要約している。

推測統計
例：工場での製品生産、一部の経済統計
→ サンプル(標本)から全体(母集団)を推測
標本抽出
標本抽出
ex:家計調査
ex:製品の重さ

推測統計
平均、標準偏差を計算
平均、標準偏差を計算
ex:製品の重さ
ex:家計調査

推測統計
推測する
推測する
ex:製品の重さ
ex:家計調査

3. グラフをたくさん描こう

ID total_bill tip gender smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
4 24.59 3.61 Female No Sun Dinner 4
6 8.77 2 Male No Sun Dinner 2
…
…
…
…
…
…
…
…
使用するデータ
例：飲食店の顧客別支払い金額データ

ヒストグラム
例：飲食店の顧客別支払い金額データ
支払額(ドル)
人数
https://github.com/mwaskom/seaborn-data

ヒストグラム
ある幅に入っているデータの個数(度数)を、
棒の縦の長さで表したグラフ。
(※ 面積が度数と比例するように描く)

例：飲食店の顧客別支払い金額データ(曜日別)
支払額(ドル)
人数
ヒストグラム

例：曜日ごと、性別ごと売上高
箱ヒゲ図
50%点
25%点
75%点
最小値
最大値
外れ値

箱ヒゲ図：データも一緒にプロット
50%点
25%点
75%点
最小値
最大値
外れ値
例：曜日ごと、性別ごと売上高

箱ヒゲ図：外れ値の計算方法
Q1(25%点) - 1.5 IQRより小さい
Q2(75%点) + 1.5 IQRより大きい
外れ値外れ値
https://en.wikipedia.org/wiki/Interquartile_range

例：飲食店の総支払額 vs チップ額
散布図

散布図 (＋回帰分析)
例：飲食店の総支払額 vs チップ額

時系列グラフ (2軸グラフ)
例：日経平均株価、為替(ドル円)
為替(ドル円)
日経平均株価

4. 基本統計量って何？

・平均
・分散
・標準偏差

基本統計量
・代表値 … 分布全体を一つの数で
表したもの
平均値、中央値、最頻値など
青が平均が大きく、
赤が平均が小さい

基本統計量
・散布度 … データの散らばりの程度を
数値化したもの
分散、標準偏差、変動係数など
青が散らばりが大きく、
赤が散らばりが小さい。
平均は同じ。

ここで、ちょっとだけ

統計学ではデータを
数字で表すので
少し数学が必要に
なるのです

変数とは
x = 5
a = 10
a ⇥ x = 10 ⇥ 5 = 50

変数とは
a = 10
x = 3
a ⇥ x = 10 ⇥ 3 = 30

変数とは：Excelで言うと
A B C D
1
2 x 5
3 a 10
4
5 a × x 50
6
7
= B2 * B3
という数式が入っている

A B C D
1
2 x 3
3 a 10
4
5 a × x 30
6
7
= B2 * B3

A B C D
1
2 x 3
3 a 10
4
5 a × x 30
6
7
セルに数値を入れているのと同じこと！
= B2 * B3

変数とは：データを扱う
名前数学
田中 96
高橋 63
鈴木 85
渡辺 66
清水 91
木村 89
山本 77

名前数学
田中 96
高橋 63
鈴木 85
渡辺 66
清水 91
木村 89
山本 77
ID 数学
1 96
2 63
3 85
4 66
5 91
6 89
7 77
IDにする

名前数学
田中 96
高橋 63
鈴木 85
渡辺 66
清水 91
木村 89
山本 77
ID 数学
1 96
2 63
3 85
4 66
5 91
6 89
7 77
IDにする変数にする
ID 数学
1
2
3
4
5
6
7
x1
x2
x3
x4
x5
x6
x7

名前数学
田中 96
高橋 63
鈴木 85
渡辺 66
清水 91
木村 89
山本 77
ID 数学
1 96
2 63
3 85
4 66
5 91
6 89
7 77
IDにする変数にする
x5：右下の数字(添字)はデータのIDを表す
ID 数学
1
2
3
4
5
6
7
x1
x2
x3
x4
x5
x6
x7

合計する
名前

数学
田中 96
高橋 63
鈴木 85
渡辺 66
清水 91
木村 89
山本 77
合計 567
= sum(B2 : B8)

合計する
ID 数学
1
2
3
4
5
6
7
合計
x1
x2
x3
x4
x5
x6
名前

数学
田中 96
高橋 63
鈴木 85
渡辺 66
清水 91
木村 89
山本 77
合計 567
x7
x1 + x2 + x3 + x4 + x5 + x6 + x7

合計する
ID 数学
1
2
3
4
5
6
7
合計
名前

数学
田中 96
高橋 63
鈴木 85
渡辺 66
清水 91
木村 89
山本 77
合計 567 書くのが大変！！！
x1
x2
x3
x4
x5
x6
x7
x1 + x2 + x3 + x4 + x5 + x6 + x7

合計する
Excelには
「B2 + B3 + B4 + B5 + B6 + B7 + B8」
を省略する短い書き方
「= sum(B2 : B8) 」
が存在する。

合計する
数学には？
Excelには
「B2 + B3 + B4 + B5 + B6 + B7 + B8」
を省略する短い書き方
「= sum(B2 : B8) 」
が存在する。

合計する
あります！
x1 + x2 + x3 + x4 + x5 + x6 + x7
=
7X
i=1
xi

合計する
あります！
i は1から始まる
という意味
i は7まで続きます、
という意味
この範囲の i について
全部足し合わせる、
という意味
=
7X
i=1
xi
x1 + x2 + x3 + x4 + x5 + x6 + x7

・平均
・分散
・標準偏差
戻ります。

平均
ご存知「平均」です。
データを全部足し合わせて、データの数で割
ります。
¯x =
1
7
(x1 + x2 + x3 + x4 + x5 + x6 + x7)
=
1
7
7X
i=1
xi

分散・標準偏差
データの散らばりの程度を数値化したもの

分散 =
1
N
NX
i=1
(xi ¯x)2
標準偏差 =
v
u
u
t 1
N
NX
i=1
(xi ¯x)2

分散 =
1
N
NX
i=1
(xi ¯x)2
標準偏差 =
v
u
u
t 1
N
NX
i=1
(xi ¯x)2
わけわからないですよね？

「偏差」とは？
ID

点数

偏差
1 96 96-81= 15
2 63 63-81=
-183 85 85-81= 4
4 66 66-81=
-155 91 91-81= 10
6 89 89-81= 8
7 77 77-81= -4

「偏差」とは？
ID

点数

偏差
1 96 96-81= 15
2 63 63-81=
-183 85 85-81= 4
4 66 66-81=
-155 91 91-81= 10
6 89 89-81= 8
7 77 77-81= -4
各データの平均値からの差のこと

分散・標準偏差：の前に平均偏差
この、偏差の平均値を取りたいが・・・
ID 偏差
1 15
2 -18
3 4
4 -15
5 10
6 8
7 -4
全部足すと０になってしまう
(左右釣り合いが取れるところが
平均値なので)

ID 偏差

プラス化
1 15 15
2 -18 18
3 4 4
4 -15 15
5 10 10
6 8 8
7 -4 4
反転
なので、マイナスを取ってやる

ID 偏差

プラス化
1 15 15
2 -18 18
3 4 4
4 -15 15
5 10 10
6 8 8
7 -4 4
平均 10.57
なので、マイナスを取り除いてやる
偏差の平均
= 10.57
平均からの距離を
平均したもの

=
1
n
nX
i=1
|xi ¯x|
平均偏差
偏差を足し合わせてデータ数:nで割る。
つまり平均をとっている。
偏差を全てプラスに変える
ために絶対値を取る。
ID 偏差

プラス化
1 15 15
2 -18 18
3 4 4
4 -15 15
5 10 10
6 8 8
7 -4 4
平均 10.57

先ほどは下記の図のように、平均値からの差を
線の長さで表現していましたが、

今度はマイナスの値を取り除くために２乗します。
2乗するということは面積であると考えられます。

＋＋＋
=
いろいろなサイズの正方形を
足して、データの個数で割ると、
面積の平均が求まる。
これが分散の直感的イメージ。
＋ … ＋＋個数
面積の平均値
①
②
③ ④
n

偏差
=
1
n
nX
i=1
(xi ¯x)2
分散
二乗した偏差を足し合わせてデータ数:nで割る。
この場合も二乗偏差の平均をとっている。
つまり、オレンジの面積の平均になる。
偏差を全てプラスに変えるために二乗する。
「二乗する」ということは面積をイメージして良い。

長さ: 5
長さ:5
面積 =
5 x 5 = 25
p
長さ: 5
ルート
面積が長さになる！
の計算をすると

長さ: 5
長さ:5
面積 =
5 x 5 = 25
p
長さ: 5
ルート
面積が長さになる！
の計算をすると
標準偏差 =
v
u
u
t 1
N
NX
i=1
(xi ¯x)2
単位を長さに戻した

この全データが
中心から離れている
具合の平均的な値

名前数学偏差偏差2乗人数で割るルート
田中 96 15 225
高橋 63 -18 324
鈴木 85 4 16
渡辺 66 -15 225
清水 91 10 100
木村 89 8 64
山本 77 -4 16
合計 970 138.57 11.77
標準偏差は11.77
平均 81.00

Ex: 偏差値
名前数学偏差標準偏差
何個分？ ← 10倍 ← + 50
田中 96 15 1.27 12.74 62.74
高橋 63 -18 -1.53 -15.29 34.71
鈴木 85 4 0.34 3.40 53.40
渡辺 66 -15 -1.27 -12.74 37.26
清水 91 10 0.85 8.50 58.50
木村 89 8 0.68 6.80 56.80
山本 77 -4 -0.34 -3.40 46.60
平均 81.00 標準偏差 11.77
これが「偏差値」

相関係数とは
支払総額
チップ

相関係数とは
支払総額
チップ
「支払総額」が増えると
「チップ」も増える傾向にある
→ 相関している

相関係数とは
支払総額
チップ
「支払総額」が増えると
「チップ」も増える傾向にある
→ 相関している
相関係数：0.675734

相関係数とは
相関係数: 1 は
完全に横軸と縦軸が
依存関係にあり、一方が増えると
もう一方も増えている。

相関係数とは
相関係数: -1 は
やはり、完全に横軸と縦軸が
依存関係にあり、一方が増えると
もう一方が減っている。

相関係数とは
相関係数: 0 は
横軸と縦軸が全くなく
一方が増えてももう一方は
それとは関係なく値が決まる。

相関係数とは
式で表すと・・・
r =
1
n
Pn
i=1(xi ¯x)(yi ¯y)
q
1
n
Pn
i=1(xi ¯x)2
q
1
n
Pn
i=1(yi ¯y)2

相関係数とは
さっきの標準偏差と一緒！
r =
1
n
Pn
i=1(xi ¯x)(yi ¯y)
q
1
n
Pn
i=1(xi ¯x)2
q
1
n
Pn
i=1(yi ¯y)2

相関係数とは
さっきの標準偏差と一緒！
r =
1
n
Pn
i=1(xi ¯x)(yi ¯y)
q
1
n
Pn
i=1(xi ¯x)2
q
1
n
Pn
i=1(yi ¯y)2
2乗しているので必ずプラス

相関係数とは
r =
1
n
Pn
i=1(xi ¯x)(yi ¯y)
q
1
n
Pn
i=1(xi ¯x)2
q
1
n
Pn
i=1(yi ¯y)2
これを共分散という

相関係数とは
共分散
1
n
nX
i=1
(xi ¯x)(yi ¯y)
横軸の平均からの距離 (偏差)
平均より小さいところは
マイナスになる。

相関係数とは
共分散
1
n
nX
i=1
(xi ¯x)(yi ¯y)
縦軸の平均からの距離 (偏差)
平均より小さいところは
マイナスになる。

相関係数とは
平均値
相関係数 : 0.8
1
n
nX
i=1
(xi ¯x)(yi ¯y)

相関係数とは
マイナス
マイナス
プラス
プラス
相関係数 : 0.8
1
n
nX
i=1
(xi ¯x)(yi ¯y)

相関係数とは
マイナス
マイナス
プラス
プラス
相関係数 : 1
1
n
nX
i=1
(xi ¯x)(yi ¯y)

相関係数とは
マイナス
マイナス
プラス
プラス
相関係数 : -1
1
n
nX
i=1
(xi ¯x)(yi ¯y)

相関係数とは
マイナス
マイナス
プラス
プラス
相関係数 : 0
1
n
nX
i=1
(xi ¯x)(yi ¯y)

相関係数とは
注意！
相関というものは、因果関係とは別の概念

相関係数とは
注意！
例：アイスクリームの売り上げが伸びると
水死者数も確実に増える。

相関係数とは
注意！
アイスクリームを買うと、誰かが溺
死するわけではなく、ともに
夏に多いと言うこと
水死者
数↑
アイス
売上↑
夏の気温

相関係数とは
注意！
アイスクリームを買うと、誰かが溺
死するわけではなく、ともに
夏に多いと言うこと
水死者
数↑
アイス
売上↑
夏の気温
因果関係は統計学の外の
ドメイン知識で判断する。

相関係数とは
https://ja.wikipedia.org/wiki/相関関係と因果関係

6. 標本調査（母集団と標本）

サンプル(標本)から全体(母集団)を推測
標本調査 (母集団と標本)
母集団
特徴や傾向を知りたい
集団全体のこと
標本
実際に調査を行いデータを
取る母集団の一部

サンプル(標本)から全体(母集団)を推測
標本抽出
母集団
特徴や傾向を知りたい
集団全体のこと
標本
実際に調査を行いデータを
取る母集団の一部
対象の母集団に対して偏りなく
ランダムに抽出することが重要

電話調査 (日中) 標本
標本抽出
日本人全体
推測できる？

標本
標本抽出
日本人全体
できない。
日中電話に出れる
人の全体になる。
電話調査 (日中)
推測できる？

正規分布
統計学で最も重要な確率分布。
データの分布が平均値を頂点とし
た左右対称の山形で表示される。
この面積が、確率を
表している。
赤い線の下の面積を全部
足すと１になるようになっている。
推測：正規分布とは

コイン投げ
表は1 裏は0
[1, 0, 1, 0, 0, 0, 0, 1, 0, 0,
0, 1, 0, 0, 1, 0, 1, 0, 0, 1]
ランダムに20回投げると、
このようなデータとなる

コイン投げ
表は1 裏は0
[1, 0, 1, 0, 0, 0, 0, 1, 0, 0,
0, 1, 0, 0, 1, 0, 1, 0, 0, 1]
ランダムに20回投げると、
このようなデータとなる
表の数を数えると
7 になる。

コイン投げ
9 12 11 4 10 12 10 9 9 9 8 9 10 11 11 8 12 11
15 7 16 8 11 10 13 10 11 12 7 11 11 11 8 9 10
13 12 10 12 8 11 8 12 8 10 12 11 11 13 13 7
11 8 13 12 7 5 9 12 9 8 11 11 10 10 10 10 5
16 6 14 9 10 13 11 7 11 10 8 11 13 8 9 13 7
12 9 11 10 10 7 12 8 12 11 6 14 9 13 13
20回1セットとして、それを100セット実施
すると下記のようなデータになる。

コイン投げ
10,000セット実施してグラフにしてみる。

コイン投げ
これがほぼ
正規分布！

コイン投げ
これがほぼ
正規分布！
なので、２択でそれぞれ
の確率が50%という
完全なランダムの
積み重ねでできたもの。

100万件データのヒストグラム
平均： 30、標準偏差： 5

954,375 個 22,878 個22,747 個
標準偏差左右に
2つ分ずつ
数えてみた
標準偏差：5

954,375 個 22,878 個22,747 個
95.44% 2.29%2.27%
標準偏差2つ分
数えてみた
2つ分ずつ

954,375 個 22,878 個22,747 個
95.44% 2.29%2.27%
数えてみた
2つ分ずつ
真ん中の標準偏差2つ分の範囲に
入る確率は約95%！

推測：母集団の平均値の推定
母集団
標本抽出標本
ここから100個
標本として抽出する

標本
標本平均：30.59
標本標準偏差：
5.03
標本平均と、標本標準偏差を計算する

標本
この標本標準偏差を
標本数で割る。
0.503
5.03
この例の場合、
100 = 10 で割る

標本
標準偏差を２つ分
ずつの区間
5.03
0.503
この標本標準偏差を
標本数で割る。

標本
拡大
0.503
29.58 31.60
サンプリングを100回
行うと、そのうちの95%
は、真の平均値を捕捉
できる。

推測：標本平均の標準偏差が小さくなる理由
母集団
標本抽出
標本抽出をするたびに、
少し違う形の分布となる
→ 標本平均が毎回違う
標本
ここから100個
標本として抽出する

何回もやってみる。母集団のミニ版がたくさんできる

何回もやってみる。母集団のミニ版がたくさんできる個々の平均が母集団の
平均の 30 に近い！

標本
平均値の分布
標本平均を集めたもの
をまたグラフに書いてみる

平均値の分布
拡大してみる。

平均値の分布
確かに、標本サイズ100のルート、 100 = 10で
元の標準偏差:5を割ったものとなっている！

平均値の分布
29.0 31.0
29.0∼31.0の区間を取ると、
95%の標本平均が入っている

50回試してみると、ほとんどが真の平均30
を捉えられている。

8.仮説検定 (さわりだけ)

仮説検定：新入生向け試験の点数
毎年の結果から、平均:450点, 標準偏差: 80点
の正規分布で近似できるとわかっている。
これを母集団とする。
母集団

英語力が変わらないとすると、「効果がない」を
表現するのは、今までの平均点と同じ450点
母集団
450点
帰無仮説:「差がない」「効果がない」を表す仮説

今年の新入生の結果
標本
[430 534 504 463 520 504 575 569 437 402 402 613 602 494 412 467 579 486
450 531 498 392 489 424 461 415 417 386 545 511 372 555 727 391 430 309]
平均：480点、標準偏差：82点、36人のデータ

平均値の分布
→ 平均値の標準偏差は 82 36 = 13.7
453.1 507.8

平均値の分布
→ 平均値の標準偏差は 82 36 = 13.7
453.1 507.8
この幅に、帰無仮説の値
450点が入らないので
今年の新入生は「有意に
点数が高い」と言える！

参考
・「ビジネスに活かすデータマイニング」尾崎隆著
・「日本統計学会公式認定統計検定3級対応
データの分析」日本統計学会編
・「データサイエンティスト養成読本」
・「【統計学】初めての「標準偏差」（統計学に挫折
しないために）」 http://goo.gl/yM0QHU
・今日使ったプログラムコード
https://goo.gl/Wckrdm

統計学の基礎の基礎

More Related Content

統計学の基礎の基礎