サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
bellcurve.jp
統計WEBでは、統計検定2級までの内容をカバーする「統計学の時間」を掲載しています。 この記事では、統計WEBを管理している私、石村が統計検定を受験した際の話をご紹介します。 私のこれまでの勉強のあゆみ 私はゆとり世代ど真ん中の教育カリキュラムを受けてきた世代です。 高校・大学は文系で、高校では数ⅡBの授業を受けていましたが、ほとんど記憶に残っていません。大学受験の際は数学を使わずに受験できる学科を選んだほど理系は苦手でした。 大学4年間は一切数式と関わることなく卒業。統計学との接点は、マーケティングの授業で正規分布を見たことと、社会学の授業でローレンツ曲線を見たことくらいです。 まずは統計検定3級から まず、自分の数学のレベルの現在地を知るために、「統計学の時間」の中の「1-3. 統計学に必要な数学」を読みました。 私の場合、Σ(シグマ)や∫(インテグラル)の意味は覚えていたのですが、肝
※コラム「統計備忘録」の記事一覧はこちら※ 平均寿命をどうやって計算しているか考えたことはありますか? 平均寿命とは、1年間に亡くなった方の死亡時年齢を平均したものではありません。 人口の多い世代は、死亡率が低くとも死亡者数は前後の世代よりも多くなりますから、この方法では、団塊の世代が平均寿命を左右してしまいます。ちなみに、終戦前後(1945-1946年生まれ)の世代の年齢あたりの人口は平均140万人ですが、団塊の世代(1947-1949年生まれ)になると220万人を超えます。 それでは、平均寿命は一体どのように計算されているのでしょうか。 平均寿命の定義を調べてみると、0歳児の平均余命(へいきんよめい)と出てきます。「今年生まれた子が何歳まで生きるか」を予想した値です。厳密には平均値ではなく期待値です。 0歳児の平均余命を計算するには、年齢ごとに生きている人と亡くなった人の人数を調べて、
統計検定2級のPBT方式(紙)の試験は2021年6月をもって終わりました。これ以降はCBT(コンピュータ)方式の試験となりますので、統計検定2級の解説は2021年6月分が最後となります。そこで、これまで行われてきたPBT方式の統計検定2級の難易度や活用方法についてまとめてみたいと思います。 ※統計検定2級に対する難易度は個人の得意/不得意によってそれぞれ違うと思いますので、あくまでも統計webに掲載している解説を作るにあたって過去問を解いてみたときの感想が元になっているという点をご理解いただけますと幸いです。 目次 難易度の項目ではそれぞれの問題の解説に飛ぶことができます。 統計検定2級の難易度 過去問のレベル別活用法 過去問活用4Steps 統計検定2級の難易度 ■2012年11月 難易度:易 グラフや表の読み取り、統計検定、確率計算、いずれの問題においても基礎がしっかり身についていれば
概要 Excel 2016には、箱ひげ図を作成する機能が搭載されています。Excel 2013までは箱ひげ図の作り方(棒グラフ編)で紹介したように、棒グラフと誤差範囲のバーを組み合わせて箱ひげ図のように見せていました。 ここでは、Excel 2016を用いて箱ひげ図を作る方法と各オプション機能の説明を行います。 データの選択 1. データ範囲を選択します。箱ひげ図の作り方(棒グラフ編)で用いたデータをここでも使用しますが、Excel 2016の機能で箱ひげ図を作成する場合、データを表形式ではなく下図のように2列にまとめる必要があります。このデータのセル範囲(B3:C81)を選択します。
日差しの強い7月―――今日は猫稲荷神社のお祭りです。神社の境内にはたくさんの屋台が並んでいます。町中の猫たちが陽気な祭囃子に誘われて続々と集まってきています。 ■平均 どれもこれも魅力的に見えてしまう屋台ですが、子猫たちは自分のお小遣いと相談しながら何を買おうか吟味しているようです。次の表はランダムに選んだ5匹の子猫のお小遣いの金額を集計したものです。
母分散の推定量として標本分散を用いる場合に、標本分散が「一致性」及び「不偏性」を満たしているかどうかを確認してみます。 ■不偏性について 標本分散 は次の式から求めることができます。
不偏分散は母分散の不偏推定量であることが知られています。では、不偏分散の正の平方根は母標準偏差の不偏推定量、つまり「不偏標準偏差」であると言えるでしょうか。結論から言うと、「不偏推定量ではない」が答えです。以下では、正規分布の場合を例にしてそれを確認します。 最初に、不偏分散の式について確認しましょう。不偏分散は次のような推定量です。 以下では、個の確率変数は独立に同一の正規分布に従うとします。これらから、の母標準偏差を推定することについて考えます。不偏性の定義よりが成立すれば、は標準偏差の不偏推定量であると言えます。では、の値を具体的に計算してみましょう。 まず、カイ二乗分布の定義から、を次のように変形したは、自由度のカイ二乗分布に従うことが分かっています。も確率変数であると考えることができます。
12-3章では確率変数の期待値について、12-5章では確率変数の分散について学びました。この章では、2つの確率変数の和、差、共分散、相関係数について学びます。 ■2つの確率変数の期待値 2つの確率変数とYの和、差の期待値は、次に示すように、それぞれの期待値、の和、差に等しくなります。
例題: 日本人の0.01%が罹患しているある病気について考えます。この病気の検査方法では、実際に病気に罹患している人が陽性と判定される確率が95%、逆に罹患していない人が陰性と判定される確率は80%であると言われています。 ある人がこの病気の検査を受けて陽性という判定を受けた時、本当にこの病気に罹患している確率はいくらでしょうか。 検査で陽性になる事象を事象、検査で陰性になる事象を事象(事象Aの余事象)、実際に病気に罹患している事象を事象、罹患していない事象を事象とします。ベイズの定理を使うと、求める確率はとなります。 問題文から、それぞれの確率は次のようになります。 病気に罹患している確率: 病気に罹患していない確率: 実際に罹患している人が検査で陽性となる確率: 実際に罹患していない人が検査で陰性となる確率: 実際に罹患していない人が検査で陽性となる確率: これらの値を①の式に当てはめ
このグラフを見ると、同じような形が3回繰り返されていることが分かります。1日のうち昼は気温が高くなり夜は気温が下がるので、気温の変化の傾向は似通っており、ある程度の周期性が見て取れます。 ここで、「元のデータ」と「元のデータから時間をずらしたデータ」との相関係数を計算します。そして、元データからずらした量(ラグ)を横軸にとり、計算した相関係数を縦軸に取ると、次のようなグラフができます。 元データと時間をずらしたデータとの相関のことを「自己相関」と言います。また、ラグと自己相関を表したグラフを「コレログラム」と言います。コレログラムを見ると、データが周期性をもつかどうかを調べることができます。 このグラフの自己相関係は、コサインカーブが減衰していくような規則正しい形を描いています。データが「24」、「48」ずれたところで自己相関が極端に高くなっており、「12」、「36」で自己相関が極端に低く
■決定係数 決定係数はデータに対する、推定された回帰式の当てはまりの良さ(度合い)を表します。決定係数は一般にで示され、0から1までの値をとります。1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数が目的変数をよく説明していると言えます。 ■決定係数の例 いくつかの単回帰式とその決定係数を見てみます。決定係数は上から順に「0.9」「0.6」「0.3」です。 ■決定係数の求め方 決定係数を求めるにためには、実際のデータと推定された回帰式から「全変動」「回帰変動」「残差変動」の3つを求める必要があります。ここでは実際のデータを()、回帰式から推定されたデータを()、データ全体から求められる平均値を()とします。 「全変動」:実際のデータとデータ全体の平均値との差を表します(上の図の緑の部分) 「回帰変動」:推定された回帰式から得られた予測値とデータ全体の平均値の差を
これまでに実施された統計検定2級の解説を掲載しています。 2021年6月実施 統計検定2級解説 その1 その2 その3 2019年11月実施 統計検定2級解説 その1 その2 その3 2019年6月実施 統計検定2級解説 その1 その2 その3 2018年11月実施 統計検定2級解説 その1 その2 その3 2018年6月実施 統計検定2級解説 その1 その2 その3 2017年11月実施 統計検定2級解説 その1 その2 その3 2017年6月実施 統計検定2級解説 その1 その2 その3 詳細版(一部問題のみ) 2016年11月実施 統計検定2級解説 その1 その2 その3 2016年6月実施 統計検定2級解説 全体版(一部問題のみ) 詳細版(一部問題のみ) 2015年11月実施 統計検定2級解説 その1 その2 その3 2015年6月実施 統計検定2級解説 その1 その2 その3 2
23-1章では、次に示すようにコインを用いた検定の流れについて学びました。 50%の確率で表が出る普通のコインと、10%の確率でしか表が出ない不正なコインがどちらも2枚ずつあり、「普通のコインだよ」と言ってどちらかのコイン2枚組を渡されたとします。渡された2枚のコインを投げる試行を2回繰り返したところ、2回ともすべて裏でした。 「“稀である”と判断する確率の基準」を10%とした場合、この結果を元に検定を行うと「渡されたコインは普通のコインであるとは考えられない」という結論になります。すなわち、「渡されたコインは普通のコイン」が正しいと仮定したとき、観測した事象が起こる確率は6.25%であり、6.25%は10%より小さいためです。 このコインの問題を使って、検定で使われる用語について解説します。 ■帰無仮説と対立仮説 検定を行うため立てる仮説のことを「帰無仮説」といいます。帰無仮説に対する仮
25-1章では母比率の検定方法について学びました。この章では、2つの標本から得た標本比率を使って母比率が等しいかを検定する方法について学びます。 例題: あるドラマの視聴率を調査したところ、関東地区では5,000世帯中1,000世帯が視聴していたことが分りました。一方、関西地区では3,000世帯中540世帯が視聴していました。この結果から、2地区の視聴率に差があるといえるでしょうか。
統計的仮説検定(単純に「検定」とも言います)は、確率をもとに結論を導く方法です。検定について本格的に学習する前に、まずは検定の基本的な考え方について学びます。 検定は「最初に仮説を立て、実際に起こった結果を確率的に検証し、結論を導く」という手順で行います。結論を導くには「背理法(はいりほう)」を用います。背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考えて矛盾が起こった場合に仮説が間違っていると判断する」方法のことです。具体的な例を用いて検定の流れを見てみます。 例題: 50%の確率で表が出る普通のコインと、10%の確率でしか表が出ない不正なコインがどちらも2枚ずつあるとします。なお、この4枚のコインは全て見た目が同じで見分けることはできません。 「普通のコインだよ」と言われ、普通か不正のどちらかのコイン2枚組を渡されたとします。渡された2枚のコインを投げる試行を2回繰り返したと
母比率の95%信頼区間は、標本比率の両側にずつ幅を取ったものであると考えることができます。つまり、95%信頼区間の幅は次のようになります。この式を使うと、必要なサンプルサイズを算出できます。 例題: テレビ番組の視聴に関する街頭アンケートを行います。信頼係数を95%とし、A番組の視聴率の信頼区間の幅を5%以下にするためには、何人以上の人にアンケートを行わなくてはならないでしょうか。ただし、A番組の視聴率は事前調査により10%以下であることが分かっているものとします。 A番組の視聴率の推定値=0.1を①の式に代入し、nを求めます。①式が5%(=0.05)以下であればいいので、次の関係が成り立ちます。 この式から、母比率の信頼区間について次の3点が成り立つことが分かります。 nが大きくなると信頼区間の幅は狭くなり、より正確な推定ができる 信頼区間の長さがに反比例しているためです。例えば、nが4
・「感度(真陽性率)」:a/(a+c) 実際にその病気に罹患している人の中で、検査で陽性になった人の割合のこと。 ・「特異度(真陰性率)」:d/(b+d) その病気に罹患していない人の中で、検査で陰性になった人の割合のこと。 ・「陽性的中率(PPV)」:a/(a+b) 検査で陽性になった人の中で実際にその病気に罹患している人の割合のこと。 ・「陰性的中率(NPV)」:d/(c+d) 検査で陰性になった人の中でその病気には罹患していない人の割合のこと。 ・「偽陽性率」:b/(b+d) その病気に罹患していない人の中で、検査で陽性になった人の割合のこと。 ・「偽陰性率」:c/(a+c) 実際にその病気に罹患している人の中で、検査で陰性になった人の割合のこと。 ・「陽性尤度比」:{a/(a+c)}/{b/(b+d)}=感度/{1-特異度}=感度/偽陽性率 検査結果が陽性の人に着目したときに、罹患
以下の3つの値を用いて、2つのデータの平均値からの「ばらつき具合」を比較してみます。 「平均値からの各データの」の平均値 「平均値からの各データの差の絶対値」の平均値 「平均値からの各データの差の2乗」の平均値 1. 「平均値からの各データの」の平均値 下の表は平均値とそれぞれのデータとの差をまとめたものです。この差の平均はデータAもデータBも0となりました。
ある事象が起こるという条件のもとで、別のある事象が起こる確率のことを「条件付き確率」と言います。例えば、事象Bが起こるという条件のもとで事象Aが起こる場合、この条件付き確率はと表され、次の式により計算できます。 例題1: 次の図の袋の中には、赤い玉が3つ、白い玉が3つ入っています。赤い玉のうち2つには「1」、残りの1つには「2」と書かれています。一方、白い玉のうち2つには「2」、残りの1つには「1」と書かれています。この袋の中から玉を1つ取り出す時、「1」と書かれた赤色の玉が取り出される確率はいくらでしょうか。 6個の玉の中に「1」と書かれた赤色の玉は2個あるので、となります。 例題2: 例題1と同じ袋の中から玉を1つ取り出した時、その玉は赤色でした。この赤い玉に「1」と書かれている確率はいくらでしょうか。 この問題は例題1と同じように、「玉は全部で6個、赤い玉で「1」と書かれた玉は2個あ
■歪度(わいど) 分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。サンプルサイズをn、各データの平均値を、標準偏差をsとすると歪度は次の式から求められます。 「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布のときには正の値を、「左裾が長い」もしくは「左に歪んだ」もしくは「右に偏った」分布のときには負の値をとります。左右対称の分布(例えば正規分布)の場合には0になります。 例えば、3-2章で用いた生徒の身長のデータから歪度を算出すると次のようになります(※この図に示した歪度は、すべてのデータが階級値をとった場合の値です)。 ■尖度(せんど) 分布が正規分布からどれだけ尖っているかを表す統計量で、山の尖り度と裾の広がり度を示します。サンプルサイズをn、各データの平均値を、標準偏差をsとすると尖度は次の式から求められます。 正規分布より尖った分
変動係数(Coefficient of Variation)は、標準偏差を平均値で割った値のことで、単位の異なるデータのばらつきや、平均値に対するデータとばらつきの関係を相対的に評価する際に用いる単位を持たない(=無次元の)数値です。変動係数はCVで表されることがあります。 変動係数=標準偏差÷平均値 例題1: 次の表は、あるスーパーマーケットで肉の値段を10日間調査した結果をまとめたものです。この調査の結果、鶏ささみは100gあたり平均80円、標準偏差は20円でした。一方、牛ステーキ肉は100gあたり平均1800円、標準偏差は300円でした。どちらの肉の方が値段のばらつきが大きいでしょうか。
一般的な平均、つまりデータの値を全て足してデータの数で割ったもの、は「算術平均」と呼ばれます。平均にはこの算術平均以外に「幾何平均」や「調和平均」といったものがあります。 ■幾何平均 幾何平均は次の式から求めます。 幾何平均は比率や割合で変化するものに対してその平均を求めるときに使います。例えば過去3年間で家賃が20%、10%、15%上昇したときに、1年で平均何%上昇したかを算出する際に用いられます。 この時の平均は幾何平均の式に当てはめて次のように求められます。(この計算は一般的な電卓ではできませんので関数電卓もしくはExcelで行ってください。)
実験を行う際には実験計画を立てる必要があります。実験計画とは、よい結果を得るために最も効果的な実験を計画し、その実験で得られたデータに対して最適な解析手法を採択する手順のことです。実験計画を立てずに闇雲に実験を行ってしまうと、お金や時間や労力がかかってしまうだけではなく、信頼できる結果が得られない可能性があります。 そのため、R.A. Fisherがこの実験計画法に関して3つの原則を確立しました。この原則は次の3つから成ります。 反復(replication) 無作為化(randomization) 局所管理(local control) ■反復 複数の処理を比較する際に、それぞれの処理に対して同じ条件で2回以上の繰り返し実験(評価)を行うことです。1回の測定では、測定値に違いがあっても「系統誤差(処理の違いによる差)」なのか、それとも「偶然誤差(たまたま生じる誤差)」なのかは判断できませ
■有意水準 有意水準は、検定において帰無仮説を設定したときにその帰無仮説を棄却する基準となる確率のことです。(アルファ)で表され、5%(0.05)や1%(0.01)といった値がよく使われます。有意水準は検定を行う前に設定しておきます。 有意水準を0.05に設定するということは、「5%以下の確率で起こる事象は、100回に5回以下しか起こらない事象だ。したがってこのようなまれな事象が起こった場合、偶然起こったものではないとしてしまおう」という意味です。したがって、P値が0.05(5%)を下回った場合、そのP値は偶然取る値ではないと結論付けられます。言い換えると、「極めて珍しいことが起こった」あるいは「何かしら意味があることである(=”有意である”)」ということを表します。 しかし、P値が5%以下となったとしても本当に偶然まれな事象が起こった場合もあるので、有意水準は「本当は帰無仮説が正しいのに
パーセンタイル percentile データを小さい順に並べたとき、初めから数えて全体の%に位置する値をパーセンタイルと言う。 65パーセンタイルであれば、最小値から数えて65%に位置する値を指す。第一四分位数は25パーセンタイル、中央値は50パーセンタイル、第三四分位数は75%パーセンタイルである。
※コラム「統計備忘録」の記事一覧はこちら※ 英語には平均値を表す言葉としてaverageとmeanの2つがあります。一般に、averageも mean も特にことわりがなければ「算術平均(Arithmetic mean)」を意味します。 統計学の世界では average と mean を使い分けており、いわゆる平均値には mean を用いるのが常識です。 average には mean よりも広い意味を持たせていて、「代表値」という訳語をあてます。代表値とは「分布の中心的位置を表す数値(measure of central tendency)」を意味し、平均値以外に、中央値(median、50パーセンタイル値)や最頻値(mode)も含まれます。平均値であることを明確にするために、統計学ではmeanを使うようになったのではと思います。 ところで、Microsoft(R) Excel で平均値
母平均の推定と同じように、母比率についても区間推定を行うことができます。成功確率がである試行をn回行うときに成功する回数をとすると、は二項分布に従うことは13-1章で既に学びました。このが母比率に対応します。 また、二項分布に従う確率変数の期待値と分散はそれぞれ次のようになることは13-2章で既に学びました。 nがある程度大きい時は、中心極限定理によって、は正規分布に近似できます。これにより、が二項分布に従う場合、を標準化した値はnが十分に大きいときにはは標準正規分布に従います。
※コラム「統計備忘録」の記事一覧はこちら※ 最小値が2、最大値が12の33個のデータがあったとします。33個のデータを小さい方から順に1番から33番まで番号を振っておきます。一本の定規の上に、各データを、データが持っている値と定規の目盛りが一致するように積み上げたところをイメージしてください。 この定規(上図の黒い棒)の左右のバランスが取れるところ、この例では7が平均値です。平均値とはてこの原理における支点です。一方、中央値はデータの並びにおいてちょうど真ん中のところ、この例なら17番のデータの置かれた7が中央値になります。このように平均値を中心に左右均等に散らばる場合は平均値も中央値も同じになります。 それでは33番のデータの値が12ではなく45だったとしましょう。33番が右に大きくずれたことで、てこの原理が働いて平均値は8になります。平均値は外れ値の影響を受けやすいことが分かります。中
サンプルサイズの設計および検出力分析とは、信頼性の高い実験を行うために実験の前後で行う分析のことです。「有意水準」と「検出力」と「サンプルサイズ」と「効果量」はサンプルサイズの設計や検出力分析を行うための4大因子で、このうち3つの因子の値が決まると、残りの1つの因子の値が決まります。 ■事前分析(A priori)-サンプルサイズの設計 実験前に、検出したい差(=効果量)から最適なサンプルサイズを算出することです。サンプルサイズが小さすぎると、得られた結果がサンプルサイズの小ささに起因するものか、実験そのものに起因するものなのかが分からなくなります。サンプルサイズが小さすぎると、本来は差が検出できるはずなのに、その差が検出できず実験自体に意味がなくなってしまうかもしれません。 また、サンプルサイズが大きすぎると、コストや安全性の問題が発生したり統計的に有意になりやすくなるという問題がありま
次のページ
このページを最初にブックマークしてみませんか?
『BellCurve(ベルカーブ)─統計解析ソフト・アンケート集計ソフト』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く