1. 量的データと質的データ
データは情報を表現する値のことで、統計で扱うデータは量的データと質的データとに分かれる。
量的データ…体重や身長のように、その値自体に量として意味を持つデータ
量的データはさらに比例尺度データと間隔尺度データとに分かれる
比例尺度データ…数値の差、数値の比例にも意味のあるデータ
(身長や体重などのデータ)
間隔尺度データ…数値の差には意味があるが、数値の比例には意味のなデ
ータ(温度や試験の成績などのデータ)
質的データ…血液型や試験の順番のように量的意味を持たないデータ
質的データはさらに順序尺度データと名義尺度データとに分けられる
順序尺度データ…順序として意味を持つデータ
(試験の成績結果の順番やアンケートの結果など)
名義尺度データ…血液型や男女の分類などのように区分するためのデータ
量的データはその値自体の分布状況は何等かの分布状況を示すが、質的データはその値自体特別な分布状況は示さない
2. 確率分布
2.1 度数分布
いま、20才の女性50人の身長を測定し、その測定した値をもとにして下表のような度数分布表が得られたとする。
[ 度 数 分 布 表 ]
NO |
階級値 |
度数 |
相対度数 |
累積度数 |
累積相対度 |
1 |
146 |
2 |
4% |
2 |
4% |
2 |
150 |
6 |
12% |
8 |
16% |
3 |
154 |
12 |
24% |
20 |
40% |
4 |
158 |
17 |
34% |
37 |
74% |
5 |
162 |
8 |
16% |
45 |
90% |
6 |
166 |
3 |
6% |
48 |
96% |
7 |
170 |
2 |
4% |
50 |
100% |
|
合計 |
50 |
100% |
|
|
この度数分布表の相対度数をグラフ化してみると下図のようになる。
相対度数は、各階級の度数を度数合計の値によって割ったものであるから、各相対度数の合計は1(100%)になる。また各相対度数は各階級の出現率を示している。
身長144〜148cm(階級値=146cm)の範囲に全体の4%の人が属しており、148〜152cm(階級値=150cm)の範囲に全体の12%の人が属している。このことは、発生(出現)する確率が0.04、0.12あるといえる。サンプル数をもっと増やしていくと、このグラフは中央部が高く左右にすその広がった滑らかな曲線になってくる。このような確率分布の曲線を確率分布曲線といい、身長の出現率のように中央部が高く左 右にすそが広がった左右対象のグラフを正規分布曲線という。
正規分布をするものは自然界に広く見いだすことができる。
2.2 正規分布…連続分布(連続した値をとる分布)
正規分布のグラフは、下のように連続した曲線のグラフになる。
正規分布の式を、データの標準化をすると、母平均=0,母分散=12となる。このようにして 得られた曲線を標準正規分布曲線という。
標準正規分布曲線の式は
母平均(=0)を中心にして左右対象のグラフとなる。
通常標準正規分布は、N(0,12)で表現される。
正規分布を標準正規分布にするには、正規分布のデータ(x)を で変換することにより母平均=0、母分散=12の標準正規分布に変えることができる。
2.3 標準正規分布
正規分布の式を、データの標準化を行い、平均値=0:分散=12 になるようにしたものが標準正規分布と呼ばれる分布である。
標準正規分布については、その数表が求められており、数表から分布の値(確率値)を得ることができる。
この面積=1(確率が1)
∫f(x)dx=1
−∞ 0 +∞
標準正規分布においては、その面積値が確率値を示している。標準正規分布では、母平均=0・母分散=1で平均値を中心とした左右対象の分布である。
通常、標準正規分布の数表で表示されている値は、0から右側(+側)の面積値が表示されている。つまり ∫f(x)dxの値が表示されている。
2.4 正規分布と標準正規分布の特徴
[正規分布の特徴]
@母平均:μを中心とした左右対象の分布である。
A母平均:μ 母分散値:σ2 で表す。
B正規分布は N(μ,σ2)で表す。
C2つの確率変数xとyが、別々にN(μ1,σ12)、N(μ2,σ22)に従う時
x+yの分布は、N(μ1+μ2,σ12+σ22)に従う
x−yの分布は、N(μ1−μ2,σ12+σ22)に従う
[標準正規分布の特徴]
@母平均=0を中心とした左右対象のグラフ
−∞ 0 +∞
左右対象の偶関数であるから、zが−∞から0までの面積と0から+∞までの面積は等しい。
また−∞から+∞までの面積は1である。
∫f(z)dz ∫f(z)dz
−∞ 0 +∞
∫f(z)dz=∫f(z)dz であり、また ∫f(z)dz=1 である。
A確率分布
Z=∫f(z)dz とする
(1)z=1の時
Z=0.34134(斜線の部分は0.34134)
-1
0 +1
標準正規分布は左右対象の偶関数であるから
−1≦z≦1の間のZの値は
0.34134 × 2= 0.68268
となる
このことは、標準正規分布に従う分布においては、−1≦z≦1の間に全データの
68.268%が入る
(2)z=2の時
同様に −2≦z≦2の間には全データの95.45%がはいる。
Z=0.47725
-2
0 +2
(3)z=3の時
同様に −3≦z≦3の間には全データの99.73%がはいる。
Z=0.49865
-3
0
+3
[正規分布においては]
-3σ -2σ -1σ μ σ 2σ 3σ
μ−σ ≦z≦μ+σ に全データの68.28%
μ−2σ≦z≦μ+2σに全データの95.45%
μ−3σ≦z≦μ+3σに全データの99.73% がはいる
2.5正規分布以外の確率分布
2.5.1 2項分布…離散分布(とびとびの値をとる分布)
@2項分布…B(n、p)で表す。
いま成功する確率をp、失敗する確率をqとすると。成功するか失敗するかはお互いに排反事象であるから、q=1−pである。この時n回試行して成功する回数をxとすると、その成功する確率は
nCx ・px・qn-x =
nCx ・px・(1−p)n-x
で表される。
このような確率分布を「2項分布」と呼び、下図のように離散的なグラフになる。
A2項分布の特徴
(1)2項分布においては、平均:μ=n・p
(2)2項分布において、試行回数(n) を増やして行くと2項分布は正規分布に近づく。
一般に試行回数(n)がn≧30 ,n・p≧5の時には、正規分布で近似することができる。(ラプラスの定理)
B(n,p)は N(μ,σ2)=N(n・p,n・p・q)で近似できる。
↑ ↑
平均値 標準偏差
試行回数を
増やしていく
B(n,p)
N(n・p ,n・p・q)
2項分布
正規分布
2.5.2 χ2 分布・t分布・F分布…標本分布(正規母集団から抽出した標本の分布)
正規母集団から抽出した標本の分布について、χ2 分布・t分布・F分布という重要な確率分布がある。
@χ2分布
X1,X2,…Xn がお互いに独立で、標準正規分布・N(0,12)に従う時、その平方和は自由度nのχ2分布に従う。
χ2= X12+X22+…+Xn2 = Xi2 は自由度nのχ2 分布に従う
※自由度とは、自由に動ける変数の個数をいう(独立した変数の個数)
※χ2 分布は自由度に依存する分布である。自由度が変わるとその分布も変わる。
[χ2 分布の特徴]
χ2分布は、自由度に依存する分布であり、母集団の分散の検定や推定に使用される分布である。
(1)自由度(d.f)をnとすると、平均値:n 分散:2nである
(2)χ12 = X12
+ X22 + … + Xn2=Xi2 が自由度mのχ2 に従い
χ22 = X22
+ X22 + … + Xm2=X22 が自由度nのχ2 に従う時
χ12+χ22 の分布は自由度m+nのχ2 分布に従う
(3)自由度1のχ2 分布と標準正規分布Zとの間には
[t分布の特徴]
t分布は標準正規分布N(0,12)に似た分布で平均値:0を中心にした左右対象の分布である。t分布は母集団の平均の検定や推定に使用される。
(1)自由度(d.f)をnとすると、平均値:0(n≧2) 分散:n/(n-2) (n≧3)である。
(2)n≧30の時には、標準正規分布N(0,12)で近似できる。
BF分布
X1,X2,…Xn1 がお互いに独立で、標準正規分布・N(μ1,σ12)に従い
Y1,Y2,…Yn2 がお互いに独立で、標準正規分布・N(μ2,σ22)に従う時
それぞれの不偏分散をU12、U22 とすると
3.母集団と標本について
3.1 母集団と標本
母集団とは、統計において調査の対象とする全てのデータの集まりをいう。例えば、日本人の20才の男性の身長のデータを調べたいとすると、日本人の20才男子の身長全てが母集団となる。母集団には、有限母集団と無限母集団とがある。日本人の20才男子の身長となると有限母集団ということになる。また、コインを投げて表がでるか裏がでるかの確率分布や、くじをひいて当たる確率の分布などは無限母集団である。
有限母集団でも無限母集団にしても、その母集団の全てを集めて測定することは不可能である。このために、母集団の持っている性質を無くさないようにして、母集団から無作為にデータを抽出し集めたデータを「標本」と呼ぶ。この標本について調査することを「標本調査」と呼び、標本調査の結果得られた情報をもとにして母集団に関する情報を得る方法として、「検定」・「推定」の2つの方法がある。
3.2 母数について
母集団の統計量である平均値:μ・分散:σ2 などのことを母数と呼び、総称してθで表すことが多い。一般に母数(θ)は直接求めることができないので、標本データから推定することが多い。
3.3 推定
一般に母数θを直接求めることはできない。このため標本をとり、この標本を調べることにより母数(θ)を推定する。この「推定」の方法には、母数そのものの値を推定する「点推定」とある信頼区間を設けて推定する「区間推定」とがある。点推定の方が母数そのものの値を推定するので分かりやすいが、統計的にはある信頼区間を設けて推定する「区間推定」を用いる場合が多い。
母数(θ)を推定する時、標本データをもとに推定するが、この時推定に使用するものがある特定の値に偏らない推定量であるという意味で「不偏推定量」というものを使用する。よく使用する不偏推定量としては、「不偏推定分散」がある。
いま、母集団の平均値:μ・分散:σ2とすると、この母集団から無作為にn個抽出した標本(標本の大きさ:nという)の平均値:・分散:S2とすると、不偏分散U2は
3.4 中心極限定理
母集団(母平均:μ 母分散:σ2 )から無作為にn個抽出した標本の平均=の分布標本平均の分布)状況をみると、nが充分に大きければ、その標本平均の平均は母平均(μ)に等しく、その分散はσ2 /nとなる。このことは、母集団の分布の種類に関係なく成立する。
標本平均の分布
母集団の分布
μ:母平均
※母集団から抽出した標本平均の分布は、母平均(μ)を中心としてその付近に集まって分布する。
母集団(平均:μ 分散:σ2 )から無作為にn個抽出した標本の標本平均の分布は、nがある程度大きければ近似的に正規分布N(μ,σ2 /n)に従う。これを「中心極限定理」という。
また、データを標準化して
4. 検定
母集団についてそのデータ全てを集めることは不可能である。そこで母集団の母数の情報に近づくための方法として2つの方法がある。1つは、推定であり、もう1つは「検定」と呼ばれる方法である。推定とは、母集団から無作為に抽出した標本について、平均や分散などを求め、この標本から得られて情報をもとにした、母集団の母数の値を推定していく。一方「検定」とは、最初に母数について結論である「仮説」をたてて、次に標本から得られた情報をもとにして検定のための「統計量」を求める。この統計量も一定の確率分布に従うので、確率分布状況を調べあらかじめ設定した水準より仮説の発生する確率が小さいようであれば、仮説で母数に対して決めたことがらは、滅多に起こり得ないことであると判断して、仮説の設定が間違っていたとして「仮説」を棄却し、かわりに対立仮説を採用する方法をとる。
4.1 検定の方法
@仮説をたてる
母数に対してある仮説をたてる。普通仮説は余り起こり得ないことを想定してたてることが多く、棄却されることを前提にしてたてるので、この棄却を前提にしてたてられる仮説のことを「帰無仮説:H0」という。この帰無仮説に対してたてられる仮説のことを「対立仮説:H1」という。通常帰無仮説はめったに起こり得ないとして棄却し、かわりに対立仮説を採択するという方法をとる。(以下本書では帰無仮説を単に仮説とする)
A検定統計量を求める。
母集団の母数に対してたてられる「仮説:帰無仮説」を採択するか棄却するか判断する目安となるのが「検定統計量」と呼ばれるものである。検定統計量は、母集団から無作為に抽出した標本のデータをもとにして求める。また、求めた検定統計量自体も確率変数であるために何らかの確率分布に従う。検定統計量の確率分布が分かれば、仮説を棄却するか採択するか判断することができる。
B有為水準を決める
検定統計量の確率分布が分かったら、仮説を採択するか棄却するか判断するための基準として一定の確率の値を決める。この値のことを「有為水準」と呼ぶ。標本から求めた検定統計量の値が有為水準で決めた採択域(仮説を採択する領域:仮説のようなことはあり得ることと判断する領域)に入っていれば、仮説を採択する。仮説(H0)を積極的に採用するわけではなくあくまでの「帰無仮説を棄却することはできない」として、帰無仮説を消極的に採用する。また棄却域(仮説を棄却する領域:仮説のようなことは滅多に起こり得ないことと判断する領域)にはいるようであれば、仮説を棄却しかわりに対立仮説(H1)を積極的に採択する。
↑ ↑
有為水準 有為水準
4.2 両側検定と片側検定
仮説の「棄却域」が、検定統計量の従っている確率分布の両方にあるものを「両側検定」片方だけにあるものを「片側検定」という。
(1)両側検定
両側検定をおこなう時は、検定した値が「ある値」に等しいとか等しくないとか、または全く予想できない時におこなう。
いま有為水準をαで表すと、採択域は「1−α」で、棄却域は「α」である。この時棄却域は左右両側にあるので、それぞれ左右のα/2点を調べて棄却域を設定する。
↑ ↑
有為水準 有為水準
(2)片側検定
@左片側検定
左片側検定を行う時は、母数がある値より小さいかどうか検定する時に行う。
左片側検定は、棄却域が左側に1つある。有為水準をαとすると、棄却域は左側α点である。
↑
有為水準
A右片側検定
右片側検定を行う時は、母数がある値より大きいかどうか検定する時に行う。
左片側検定は、棄却域が右側に1つある。有為水準をαとすると、棄却域は右側α点である。
↑
有為水準
4.3 検定における2種類の誤り
第1種の誤り…仮説が正しい(真)なのに棄却する誤り。このような誤りをする確率をαで表す。このαは有為水準と同じになる。
第2種の誤り…仮説が間違い(偽)なのに採用する誤り。このような誤りをする確率をβで表す。
以上の関係を表にすると
|
検定による採択 |
|
H0が真 |
H0を採択(正しい) 1−α |
H1を採択(第1種の誤り) α |
H0が偽 |
H0を採択(第2種の誤り) β |
H1を採択(正しい) 1−β |
第1種の誤りをする確率はα、第2種の誤りをする確率はβである。どちらの誤りも小さくしたいわけであるが、αを小さくするとβが大きくなり、βを小さくするとαが大きくなる関係がある。
そこでαとβをいかに決めればいいかであるが、どちらの誤りが生じた時に発生する損失が大きいかを比べて、発生する損失を小さくするように決める必要がある。つまり、第1種の誤りをすることにより発生する損失が大きい時にはαを小さくし、第2種の誤りをすることにより発生する損失が大きい時にはβを小さくするようにする。
しかし、通常仮説(H0)は、採用されないことを前提にたてる(H0が偽を前提)ので、第1種の誤りをする方が、第2種の誤りをすることよりも重要である。そこで、αをできるだけ小さくして検定を実行する。しかし、あまりαを小さくすると第2種の誤りをする確率が大きくなってしまうので、通常α=5% やα=1% で検定することが多い。
一般に標本数を増やしていくと、そのデータは中心極限定理でも明らかなように母平均(μ)の付近に集まってくるので、第1種の誤り(α)と第2種の誤り(β)をともに小さくするには、標本数を増やすとよい。
5. 母平均の差の検定
5.1 2群の母平均の差に関する検定
2群の母平均の差に関する検定を分類すると
(T)2群の母集団が正規分布に従う時
(1) 2群の母集団が対応のない時
@2群の母集団の母分散が分かっている時…Z検定
A2群の母集団の母分散は不明だが等分散と推定できる時…t検定
(等分散の検定…F検定)
B2群母集団の母分散が不明でかつ等分散と推定できない時…ウェルチの検定
(2) 2群母集団が対応のある時…t検定
※Z検定は、標準正規分布を利用した検定。t検定は、t分布を利用した検定
※F検定は、F分布を利用した検定
2群母集団が対応のある時とない時とは、対象とする母集団がペア関係にあるかないかの違いである。対応のある2群母集団とは、補講を受ける前と後の成績の変化とか、薬を飲む前と後での体調の変化のようにペア関係にある場合をいう。また、男女の違いによる身長の違いなどのようにペア関係のない2群をいう。
※標本数が大きい時(30標本以上)は母平均の差の検定ではZ検定を行う
(U)2群母集団が正規分布に従わない時…ノンパラメトリック検定を行う。
(1)2群母集団が対応のない時…ウィルコクスンの順位検定
(2)2群母集団が対応のある時…ウィルコクスンの符号付き順位検定
[ノンパラメトリック検定について…質的データの処理]
量的データは、その値自体に意味があり、ある一定の分布に従っている。これを利用して推定や検定を実施する。しかし質的データは、男女とか好き嫌いとかで、その値は単なる区分や順位などであり一定の分布に従っているわけではない。このような質的データの検定を行うのがノンパラメトリック検定と呼ばれるものである。
ノンパラメトリック検定は、ある一定の分布に従わない「検定用の量的データ」を順位等の質的データに変換し、質的データに変換したものから検定統計量を求める。この検定統計量はある一定の確率分布に従うのでこれを利用して検定を行うことができる。
ノンパラメトリック検定には、「χ2 検定:独立性の検定、適合度検定」や「順位検定:ウィルコクスンの順位検定やクルスカル・ウォリスの順位検定」等がある。
5.2 3群以上の母平均の差に関する検定
3群の母平均の差に関する検定を分類すると
(T)変動要因を1つ考える(データにばらつきを与える要因が1個)
(1) データが正規分布に従う時…一元配置分散分析
☆一元分散分析実施した結果母平均に差があると判明した時
どの群とどの群に差があるか…多重比較(ボン・フェローニの方法・シェフェの方法)
(2) データが正規分布に従わない時…クルスカル・ウォリスの順位検定
☆クルスカル・ウォリスの順位検定の結果母平均に差があると判明した時
どの群とどの群に差があるか…多重比較(ボン・フェローニの方法・シェフェの方法)
(U)変動要因を2つ考える(データにばらつきを与える要因が2個)
(1)交互作用効果がない時
データが正規分布に従う時 …繰り返しのない2元配置分散分析
データが正規分布に従わない時…フリードマンの順位検定
(2)交互作用効果がある時…繰り返しのある2元配置分散分析
3群以上の母平均の差の検定を実行する時には、「2群の母平均の差の検定」を繰り返し実行すればよいが、群数が増加すると何回も繰り返し「2群の母平均の差の検定」を行わなければならない。このような時、「1元配置分散分析」・「2元配置分散分析」を実行すれば1回の検定で複数の群間の母平均に差があるかどうか検定することができる。ただし、データが正規分布に従わない時には、ノンパラメトリック検定の一種である「クルスカル・ウォリスの順位検定」や「フリードマンの順位検定」をおこない複数の群間の母平均の差の検定をおこなう。
一元配置分散分析を実行すると、複数の群間の母平均に差があるかどうか検定することができるが、どの群とどの群の母平均に差があるかどうかは不明である。このようにどの群とどの群に差があるか検定するには「母平均の多重比較」をする必要がある。多重比較の方法には、「ボン・フェローニの方法」や「シェフェの方法」等がある。
5.3 母平均の差の検定手順