［データについて］

ホームに戻る

1.　量的データと質的データ

　　データは情報を表現する値のことで、統計で扱うデータは量的データと質的データとに分かれる。

量的データ…体重や身長のように、その値自体に量として意味を持つデータ

量的データはさらに比例尺度データと間隔尺度データとに分かれる

比例尺度データ…数値の差、数値の比例にも意味のあるデータ

　　　　　　　　　　　　　　（身長や体重などのデータ）

　　　　　間隔尺度データ…数値の差には意味があるが、数値の比例には意味のなデ

　　　　　　　　　　　　　　　ータ（温度や試験の成績などのデータ）

質的データ…血液型や試験の順番のように量的意味を持たないデータ

質的データはさらに順序尺度データと名義尺度データとに分けられる

　　順序尺度データ…順序として意味を持つデータ

　　　　　　　　　　　　　　　　（試験の成績結果の順番やアンケートの結果など）

　　名義尺度データ…血液型や男女の分類などのように区分するためのデータ

　量的データはその値自体の分布状況は何等かの分布状況を示すが、質的データはその値自体特別な分布状況は示さない

2.　確率分布

2.1　度数分布

　　いま、２０才の女性５０人の身長を測定し、その測定した値をもとにして下表のような度数分布表が得られたとする。

［度数分布表］

ＮＯ	階級値	度数	相対度数	累積度数	累積相対度
１	146	2	4%	2	4%
２	150	6	12%	8	16%
３	154	12	24%	20	40%
４	158	17	34%	37	74%
５	162	8	16%	45	90%
６	166	3	6%	48	96%
７	170	2	4%	50	100%
	合計	50	100%

この度数分布表の相対度数をグラフ化してみると下図のようになる。

相対度数は、各階級の度数を度数合計の値によって割ったものであるから、各相対度数の合計は１（１００％）になる。また各相対度数は各階級の出現率を示している。

身長１４４～１４８cm（階級値＝１４６cm）の範囲に全体の４％の人が属しており、１４８～１５２cm（階級値＝１５０cm）の範囲に全体の１２％の人が属している。このことは、発生（出現）する確率が０．０４、０．１２あるといえる。サンプル数をもっと増やしていくと、このグラフは中央部が高く左右にすその広がった滑らかな曲線になってくる。このような確率分布の曲線を確率分布曲線といい、身長の出現率のように中央部が高く左右にすそが広がった左右対象のグラフを正規分布曲線という。

正規分布をするものは自然界に広く見いだすことができる。

2.2　正規分布…連続分布（連続した値をとる分布）

正規分布のグラフは、下のように連続した曲線のグラフになる。

正規分布の式を、データの標準化をすると、母平均＝０，母分散＝１²となる。このようにして　得られた曲線を標準正規分布曲線という。

標準正規分布曲線の式は

母平均（＝０）を中心にして左右対象のグラフとなる。

　　　　通常標準正規分布は、Ｎ（０，１²）で表現される。

正規分布を標準正規分布にするには、正規分布のデータ（x）を　で変換することにより母平均＝０、母分散＝１²の標準正規分布に変えることができる。

2.3　標準正規分布

　正規分布の式を、データの標準化を行い、平均値＝０：分散＝１² になるようにしたものが標準正規分布と呼ばれる分布である。

標準正規分布については、その数表が求められており、数表から分布の値（確率値）を得ることができる。

　　この面積＝１（確率が１）

　 ∫ｆ(x)dx＝１

－∞ ０＋∞

　標準正規分布においては、その面積値が確率値を示している。標準正規分布では、母平均＝０・母分散＝１で平均値を中心とした左右対象の分布である。

通常、標準正規分布の数表で表示されている値は、０から右側（＋側）の面積値が表示されている。つまり ∫ｆ(x)dxの値が表示されている。

2.4　正規分布と標準正規分布の特徴

［正規分布の特徴］

①母平均：μを中心とした左右対象の分布である。

　　②母平均：μ　母分散値：σ²　で表す。

　　③正規分布は　Ｎ（μ，σ²）で表す。

　　④２つの確率変数ｘとｙが、別々にＮ（μ₁，σ₁²）、Ｎ（μ₂，σ₂²）に従う時

　　　ｘ＋ｙの分布は、Ｎ（μ₁＋μ₂，σ₁²＋σ₂²）に従う

　　　ｘ－ｙの分布は、Ｎ（μ₁－μ₂，σ₁²＋σ₂²）に従う

［標準正規分布の特徴］

①母平均＝０を中心とした左右対象のグラフ

－∞ ０＋∞

左右対象の偶関数であるから、zが－∞から0までの面積と0から＋∞までの面積は等しい。

また－∞から＋∞までの面積は１である。

∫ｆ(z)ｄz 　　　 ∫ｆ(z)ｄz

－∞ ０＋∞

∫ｆ(z)dz=∫ｆ(z)dz であり、また ∫ｆ(z)dz＝１　である。

②確率分布

　　　Ｚ＝∫ｆ(z)dz とする

(1)z＝１の時

　　　　　　　Ｚ＝0.34134（斜線の部分は0.34134）

　　　-1　　0 +1

標準正規分布は左右対象の偶関数であるから

－１≦z≦１の間のＺの値は

0.34134 × 2＝ 0.68268 となる

このことは、標準正規分布に従う分布においては、－１≦z≦１の間に全データの

　　　　６８．２６８％が入る

　(2)ｚ＝２の時

同様に－２≦ｚ≦２の間には全データの９５．４５％がはいる。

　　　　　　　　　　　　　　　　　　　　Ｚ＝0.47725

　　-2 　　0 +2

(3)ｚ＝３の時

同様に－３≦ｚ≦３の間には全データの９９．７３％がはいる。

　　　　　　　　　Ｚ＝0.49865

-3 　　0 +3

［正規分布においては］

-3σ -2σ -1σ μ 　 σ 2σ 3σ

μ－σ ≦ｚ≦μ＋σ に全データの６８．２８％

μ－2σ≦ｚ≦μ＋2σに全データの９５．４５％

μ－3σ≦ｚ≦μ＋3σに全データの９９．７３％がはいる

2.5正規分布以外の確率分布

2.5.1　２項分布…離散分布（とびとびの値をとる分布）

①２項分布…Ｂ(n､p)で表す。

　いま成功する確率をｐ、失敗する確率をｑとすると。成功するか失敗するかはお互いに排反事象であるから、ｑ＝１－ｐである。この時ｎ回試行して成功する回数をｘとすると、その成功する確率は

_nＣ_x ・ｐ^x・ｑ^n-x ＝ _nＣ_x ・ｐ^x・（１－ｐ）^n-x で表される。

　このような確率分布を「２項分布」と呼び、下図のように離散的なグラフになる。

②２項分布の特徴

(1)２項分布においては、平均:μ＝ｎ・ｐ 　

(2)２項分布において、試行回数(n) を増やして行くと２項分布は正規分布に近づく。

一般に試行回数(n)がn≧30 ，n･p≧5の時には、正規分布で近似することができる。(ラプラスの定理）

Ｂ(n,p)は　Ｎ（μ，σ²）＝Ｎ（n･p，n･p･q）で近似できる。

　　　　　　　 ↑ ↑

平均値標準偏差

　試行回数を

　増やしていく

　Ｂ（n，p）Ｎ（n･p ，n･p･q）

　２項分布正規分布

2.5.2　χ²分布・ｔ分布・Ｆ分布…標本分布（正規母集団から抽出した標本の分布）

　正規母集団から抽出した標本の分布について、χ2 分布・ｔ分布・Ｆ分布という重要な確率分布がある。

①χ²分布

　X₁,X₂,…X_n がお互いに独立で、標準正規分布・Ｎ（０，１²）に従う時、その平方和は自由度nのχ²分布に従う。

χ²＝ X₁²+X₂²+…+X_n² = ∑X_i² は自由度nのχ² 分布に従う

※自由度とは、自由に動ける変数の個数をいう（独立した変数の個数）

※χ² 分布は自由度に依存する分布である。自由度が変わるとその分布も変わる。

［χ² 分布の特徴］

χ²分布は、自由度に依存する分布であり、母集団の分散の検定や推定に使用される分布である。

(1)自由度（d.f）をnとすると、平均値：n　分散：2nである

(2)χ₁² ＝ X₁² + X₂² + … + X_n²＝∑X_i² が自由度ｍのχ² に従い

　 χ₂² ＝ X₂² + X₂² + … + X_m²＝∑X₂² が自由度ｎのχ² に従う時

χ₁²＋χ₂² の分布は自由度m＋nのχ² 分布に従う

(3)自由度１のχ² 分布と標準正規分布Ｚとの間には

［ｔ分布の特徴］

ｔ分布は標準正規分布Ｎ（０，１²）に似た分布で平均値：０を中心にした左右対象の分布である。ｔ分布は母集団の平均の検定や推定に使用される。

(1)自由度（d.f）をnとすると、平均値：0（n≧2)　分散：n/(n-2)　(n≧3)である。

(2)n≧30の時には、標準正規分布Ｎ（０，１²）で近似できる。

③Ｆ分布

　X₁,X₂,…X_n1 がお互いに独立で、標準正規分布・Ｎ（μ₁，σ₁²）に従い

　Y₁,Y₂,…Y_n2 がお互いに独立で、標準正規分布・Ｎ（μ₂，σ₂²）に従う時

それぞれの不偏分散をＵ₁²、Ｕ₂² とすると

3.母集団と標本について

3.1　母集団と標本

　母集団とは、統計において調査の対象とする全てのデータの集まりをいう。例えば、日本人の２０才の男性の身長のデータを調べたいとすると、日本人の２０才男子の身長全てが母集団となる。母集団には、有限母集団と無限母集団とがある。日本人の２０才男子の身長となると有限母集団ということになる。また、コインを投げて表がでるか裏がでるかの確率分布や、くじをひいて当たる確率の分布などは無限母集団である。

　有限母集団でも無限母集団にしても、その母集団の全てを集めて測定することは不可能である。このために、母集団の持っている性質を無くさないようにして、母集団から無作為にデータを抽出し集めたデータを「標本」と呼ぶ。この標本について調査することを「標本調査」と呼び、標本調査の結果得られた情報をもとにして母集団に関する情報を得る方法として、「検定」・「推定」の２つの方法がある。

3.2　母数について

　母集団の統計量である平均値：μ・分散：σ² などのことを母数と呼び、総称してθで表すことが多い。一般に母数（θ）は直接求めることができないので、標本データから推定することが多い。

3.3　推定

　一般に母数θを直接求めることはできない。このため標本をとり、この標本を調べることにより母数（θ）を推定する。この「推定」の方法には、母数そのものの値を推定する「点推定」とある信頼区間を設けて推定する「区間推定」とがある。点推定の方が母数そのものの値を推定するので分かりやすいが、統計的にはある信頼区間を設けて推定する「区間推定」を用いる場合が多い。

　母数（θ）を推定する時、標本データをもとに推定するが、この時推定に使用するものがある特定の値に偏らない推定量であるという意味で「不偏推定量」というものを使用する。よく使用する不偏推定量としては、「不偏推定分散」がある。

　いま、母集団の平均値：μ・分散：σ²とすると、この母集団から無作為にｎ個抽出した標本（標本の大きさ：ｎという）の平均値：・分散：Ｓ²とすると、不偏分散Ｕ²は

3.4　中心極限定理

　　母集団（母平均：μ　母分散：σ² ）から無作為にｎ個抽出した標本の平均＝の分布標本平均の分布）状況をみると、ｎが充分に大きければ、その標本平均の平均は母平均（μ）に等しく、その分散はσ² ／ｎとなる。このことは、母集団の分布の種類に関係なく成立する。

標本平均の分布

　　　　　　　　　　　　　　　　　　　　　　　　母集団の分布

μ：母平均

※母集団から抽出した標本平均の分布は、母平均（μ）を中心としてその付近に集まって分布する。

母集団（平均：μ　分散：σ² ）から無作為にｎ個抽出した標本の標本平均の分布は、ｎがある程度大きければ近似的に正規分布Ｎ（μ，σ² ／ｎ）に従う。これを「中心極限定理」という。

また、データを標準化して

4.　検定

　母集団についてそのデータ全てを集めることは不可能である。そこで母集団の母数の情報に近づくための方法として２つの方法がある。１つは、推定であり、もう１つは「検定」と呼ばれる方法である。推定とは、母集団から無作為に抽出した標本について、平均や分散などを求め、この標本から得られて情報をもとにした、母集団の母数の値を推定していく。一方「検定」とは、最初に母数について結論である「仮説」をたてて、次に標本から得られた情報をもとにして検定のための「統計量」を求める。この統計量も一定の確率分布に従うので、確率分布状況を調べあらかじめ設定した水準より仮説の発生する確率が小さいようであれば、仮説で母数に対して決めたことがらは、滅多に起こり得ないことであると判断して、仮説の設定が間違っていたとして「仮説」を棄却し、かわりに対立仮説を採用する方法をとる。

4.1　検定の方法

①仮説をたてる

　母数に対してある仮説をたてる。普通仮説は余り起こり得ないことを想定してたてることが多く、棄却されることを前提にしてたてるので、この棄却を前提にしてたてられる仮説のことを「帰無仮説：Ｈ₀」という。この帰無仮説に対してたてられる仮説のことを「対立仮説：Ｈ₁」という。通常帰無仮説はめったに起こり得ないとして棄却し、かわりに対立仮説を採択するという方法をとる。（以下本書では帰無仮説を単に仮説とする）

②検定統計量を求める。

　母集団の母数に対してたてられる「仮説：帰無仮説」を採択するか棄却するか判断する目安となるのが「検定統計量」と呼ばれるものである。検定統計量は、母集団から無作為に抽出した標本のデータをもとにして求める。また、求めた検定統計量自体も確率変数であるために何らかの確率分布に従う。検定統計量の確率分布が分かれば、仮説を棄却するか採択するか判断することができる。

③有為水準を決める

　検定統計量の確率分布が分かったら、仮説を採択するか棄却するか判断するための基準として一定の確率の値を決める。この値のことを「有為水準」と呼ぶ。標本から求めた検定統計量の値が有為水準で決めた採択域（仮説を採択する領域：仮説のようなことはあり得ることと判断する領域）に入っていれば、仮説を採択する。仮説（Ｈ_０）を積極的に採用するわけではなくあくまでの「帰無仮説を棄却することはできない」として、帰無仮説を消極的に採用する。また棄却域（仮説を棄却する領域：仮説のようなことは滅多に起こり得ないことと判断する領域）にはいるようであれば、仮説を棄却しかわりに対立仮説(Ｈ₁)を積極的に採択する。

↑ 　　　 ↑

有為水準　　　　　　　　　有為水準

4.2　両側検定と片側検定

　　仮説の「棄却域」が、検定統計量の従っている確率分布の両方にあるものを「両側検定」片方だけにあるものを「片側検定」という。

(1)両側検定

　両側検定をおこなう時は、検定した値が「ある値」に等しいとか等しくないとか、または全く予想できない時におこなう。

いま有為水準をαで表すと、採択域は「１－α」で、棄却域は「α」である。この時棄却域は左右両側にあるので、それぞれ左右のα／２点を調べて棄却域を設定する。

↑ 　　　 ↑

有為水準　　　　　　　　有為水準

(2)片側検定

　①左片側検定

左片側検定を行う時は、母数がある値より小さいかどうか検定する時に行う。

左片側検定は、棄却域が左側に１つある。有為水準をαとすると、棄却域は左側α点である。

　　　　　　　　　 ↑

有為水準　　

②右片側検定

右片側検定を行う時は、母数がある値より大きいかどうか検定する時に行う。

左片側検定は、棄却域が右側に１つある。有為水準をαとすると、棄却域は右側α点である。

　　　　　　　　　　 ↑

　　　　　　　　　　　有為水準　　

4.3　検定における２種類の誤り

第１種の誤り…仮説が正しい（真）なのに棄却する誤り。このような誤りをする確率をαで表す。このαは有為水準と同じになる。

第２種の誤り…仮説が間違い（偽）なのに採用する誤り。このような誤りをする確率をβで表す。

以上の関係を表にすると

検定による採択

Ｈ₀が真

Ｈ₀を採択(正しい)

１－α

Ｈ₁を採択(第１種の誤り)

Ｈ₀が偽

Ｈ₀を採択(第２種の誤り)

Ｈ₁を採択(正しい)

１－β

第１種の誤りをする確率はα、第２種の誤りをする確率はβである。どちらの誤りも小さくしたいわけであるが、αを小さくするとβが大きくなり、βを小さくするとαが大きくなる関係がある。

　そこでαとβをいかに決めればいいかであるが、どちらの誤りが生じた時に発生する損失が大きいかを比べて、発生する損失を小さくするように決める必要がある。つまり、第１種の誤りをすることにより発生する損失が大きい時にはαを小さくし、第２種の誤りをすることにより発生する損失が大きい時にはβを小さくするようにする。

　しかし、通常仮説（Ｈ₀）は、採用されないことを前提にたてる（Ｈ₀が偽を前提）ので、第１種の誤りをする方が、第２種の誤りをすることよりも重要である。そこで、αをできるだけ小さくして検定を実行する。しかし、あまりαを小さくすると第２種の誤りをする確率が大きくなってしまうので、通常α＝5% やα＝1% で検定することが多い。

　一般に標本数を増やしていくと、そのデータは中心極限定理でも明らかなように母平均（μ）の付近に集まってくるので、第１種の誤り（α）と第２種の誤り（β）をともに小さくするには、標本数を増やすとよい。

5.　母平均の差の検定

5.1　２群の母平均の差に関する検定

　　２群の母平均の差に関する検定を分類すると

（Ⅰ）２群の母集団が正規分布に従う時

　　　(1) ２群の母集団が対応のない時

　　　　 ①２群の母集団の母分散が分かっている時…Ｚ検定

　　　　　②２群の母集団の母分散は不明だが等分散と推定できる時…ｔ検定

（等分散の検定…Ｆ検定）

　　　　　③２群母集団の母分散が不明でかつ等分散と推定できない時…ウェルチの検定

(2) ２群母集団が対応のある時…ｔ検定

※Ｚ検定は、標準正規分布を利用した検定。ｔ検定は、ｔ分布を利用した検定

※Ｆ検定は、Ｆ分布を利用した検定

２群母集団が対応のある時とない時とは、対象とする母集団がペア関係にあるかないかの違いである。対応のある２群母集団とは、補講を受ける前と後の成績の変化とか、薬を飲む前と後での体調の変化のようにペア関係にある場合をいう。また、男女の違いによる身長の違いなどのようにペア関係のない２群をいう。

※標本数が大きい時（30標本以上）は母平均の差の検定ではZ検定を行う

（Ⅱ）２群母集団が正規分布に従わない時…ノンパラメトリック検定を行う。

　　　(1)２群母集団が対応のない時…ウィルコクスンの順位検定

　　　(2)２群母集団が対応のある時…ウィルコクスンの符号付き順位検定

［ノンパラメトリック検定について…質的データの処理］

　量的データは、その値自体に意味があり、ある一定の分布に従っている。これを利用して推定や検定を実施する。しかし質的データは、男女とか好き嫌いとかで、その値は単なる区分や順位などであり一定の分布に従っているわけではない。このような質的データの検定を行うのがノンパラメトリック検定と呼ばれるものである。

ノンパラメトリック検定は、ある一定の分布に従わない「検定用の量的データ」を順位等の質的データに変換し、質的データに変換したものから検定統計量を求める。この検定統計量はある一定の確率分布に従うのでこれを利用して検定を行うことができる。

ノンパラメトリック検定には、「χ2 検定：独立性の検定、適合度検定」や「順位検定：ウィルコクスンの順位検定やクルスカル・ウォリスの順位検定」等がある。

5.2　３群以上の母平均の差に関する検定

　　　３群の母平均の差に関する検定を分類すると

（Ⅰ）変動要因を１つ考える（データにばらつきを与える要因が１個）

　　　(1) データが正規分布に従う時…一元配置分散分析

　　　　　☆一元分散分析実施した結果母平均に差があると判明した時

　　　　　　どの群とどの群に差があるか…多重比較（ﾎﾞﾝ･ﾌｪﾛｰﾆの方法・ｼｪﾌｪの方法）

　　　(2) データが正規分布に従わない時…クルスカル・ウォリスの順位検定

　　　　　☆クルスカル・ウォリスの順位検定の結果母平均に差があると判明した時

　　　　　　どの群とどの群に差があるか…多重比較（ﾎﾞﾝ･ﾌｪﾛｰﾆの方法・ｼｪﾌｪの方法）

（Ⅱ）変動要因を２つ考える（データにばらつきを与える要因が２個）

　　(1)交互作用効果がない時

　　　　　データが正規分布に従う時　　…繰り返しのない２元配置分散分析

　　　　　データが正規分布に従わない時…フリードマンの順位検定

　　　(2)交互作用効果がある時…繰り返しのある２元配置分散分析

　３群以上の母平均の差の検定を実行する時には、「２群の母平均の差の検定」を繰り返し実行すればよいが、群数が増加すると何回も繰り返し「２群の母平均の差の検定」を行わなければならない。このような時、「１元配置分散分析」・「２元配置分散分析」を実行すれば１回の検定で複数の群間の母平均に差があるかどうか検定することができる。ただし、データが正規分布に従わない時には、ノンパラメトリック検定の一種である「クルスカル・ウォリスの順位検定」や「フリードマンの順位検定」をおこない複数の群間の母平均の差の検定をおこなう。

　一元配置分散分析を実行すると、複数の群間の母平均に差があるかどうか検定することができるが、どの群とどの群の母平均に差があるかどうかは不明である。このようにどの群とどの群に差があるか検定するには「母平均の多重比較」をする必要がある。多重比較の方法には、「ボン・フェローニの方法」や「シェフェの方法」等がある。

5.3　母平均の差の検定手順