6. 基本統計量を求める
6.1 基本統計量
母集団から無作為に標本を抽出する。この抽出された標本について、基本統計量を求めデータの特徴をつかむ。基本統計量としては、標本数、合計、平均、中央値、最頻値、最大、最小、範囲、分散、標準偏差、標準誤差、歪度、尖度などがある。
基本統計量 |
意 味 |
対応する関数・式 |
標本数 |
母集団から抽出した標本の個数 |
=COUNT(範囲) |
合計 |
合計値 |
=SUM(範囲) |
平均 |
合計÷個数 |
=AVERAGE(範囲) |
中央値 メディアン |
標本データを小さい順に並べた時に中央にくる値(データが偶数個の時は、中央2個の平均値) |
=MEDIAN(範囲) |
最頻値:モード |
最も多く出現する値 |
=MODE(範囲) |
最大 |
最大の値 |
=MAX(範囲) |
最小 |
最小の値 |
=MIN(範囲) |
範囲 |
データの範囲:最大-最小 |
=MAX(範囲)-MIN(範囲) |
分散 |
データの分散の程度 |
=VAR(範囲) |
標準偏差 |
分散の平方根 |
=STDEV(範囲) |
標準誤差 |
標準偏差÷(標本数の平方根) |
=STDEV((範囲)/COUNT(範囲)^(1/2) |
歪度 |
グラフの歪曲具合。0に近いほど正規分布に近い |
=SKEW(範囲) |
尖度 |
グラフの尖り具合。3に近いほど正規分布に近い |
=KURT(範囲) |
6.2 基本統計量を求める
基本統計量を求めるには、@手動で計算式を作成して求めるA関数を使用して求めるB基本統計量計算ツールを使用して一度に求める。以上3つの方法がある。通常1つずつ求めるには、関数を使用し、統計計算として一度に全体を見たい時にはツールを使用する。
6.2.1 基本統計量を関数を使用し求める
いま14人の学生が試験を受け、その結果が以下のようなデータであったとする。
No |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
点 |
45 |
66 |
53 |
45 |
72 |
51 |
46 |
32 |
46 |
62 |
51 |
65 |
51 |
58 |
点数は正規分布に従うものとする。通常標本数はある程度の大きさを必要とするが、いま標本数は14件と少ないが、この14件の標本に対して関数を使用して基本統計量を求める。
(1)標本データを入力する。1列または1行に連続した範囲で入力する。
(2)関数ウィザードを使用して、統計の関数を指定する。関数で使用する範囲はドラッグして指定する。
(3)計算結果が表示される。
6.2.2 統計ツールを使用して、基本統計量を求める。
(1)分析するデータを入力する。
(2)ツール→分析ツールを選択。データ分析ボックスが開く→基本統計量を選択→OKボタンをクリック
(3)入力範囲を指定する。分析するデータが入力されている範囲。ここではB3からB16。
次に出力先を指定する。計算結果を表示する先頭のセル位置を指定。ここではD2。
出力オプションは統計情報をクリックし指定。最後にOKボタンをクリック。
(4)出力先に基本統計量が計算されて表示される。
計算結果が表示されるので、データの一部をあとから変更した時には、再度分析ツールで基本統計量を計算し直さなければならない。関数で求めた時には、データの一部を後から変更しても再計算されて自動的に新しい値表示となる。
6.2.3 各基本統計量の意味
(1)分散
分散には、標本分散と母分散(母集団の分散)とがある。分散は、平均値から各データがどれくらい散らばっているかを見るためのものである。単純にすべてのデータについて(平均値-各データ値)を求め、足していくと0になってしまう。そこで、すべてのデータについて(平均値-各データ)2を求め(偏差平方という)、これを足していくようにする。Σ(平均値-各データ)2(偏差平方和という)。この偏差平方和を(標本数-1)で割ったものが、標本分散である。
※通常、標本数がある程度大きくなれば、標本分散と母分散はほぼ同じ値となる。
(2)標準偏差
分散は平均からのずれ具合を平方して足していったものである。元のずれ具合を見るために分散の平方根をとって元に戻したものが、標準偏差である。
標準偏差=
標準偏差も分散と同様に、標本標準偏差と母標準偏差がある。違いは、標本標準偏差は、標本数としてN-1を使用するが、母標準偏差は標本数Nを使用する。これは分散と同じである。
関数では、標本標準偏差:=stdeva(データ範囲) 母標準偏差:=stdev(データ範囲)である。
(3)標準誤差(SE)
標準偏差が各データのばらつき具合を示す統計量であるが、標準誤差は、標本平均のばらつき具合を示す統計量である。で求められる。
(4)尖度
尖度はグラフの尖り具合を数値化したものである。尖度(a)が3より小さいと滑らかな曲線となり、3に近いと正規分布に近似し、3より大きい値となると尖った曲線となる。
a<3 尖り具合が弱い a≒3 正規分布に近い a>3 尖り具合が強い
(5)歪度
歪度は正規分布に比べどれくらい歪曲しているかを数値化したものである。歪度(a)が負の時には、曲線の頂点が右にずれており、0に近い時には正規分布に近く、正の時には曲線の頂点が左にずれている。
a<0 頂点が右にずれている a≒0 正規分布に近い a>0 頂点が左にずれている
7. 度数分布表・ヒストグラムの作成
標本を集めた時、まず基本統計量を求め数値データからおおよその標本の傾向を調べる。次に度数分布表を作成し、数値データの分布状況を調べ、ヒストグラムを作成してグラフ化し、データの傾向を視覚的に表示する。
7.1 ツールを使用した度数分布表・ヒストグラムの作成
度数分布表とは、データをいくつかの幅を持った階級に分け、それぞれのデータがどの階級に属しているかをカウント(度数)したものである。通常階級数は5〜20位に設定する。
度数分布表を作成するには、(最大値-最小値)から区間を求め、区間を適当な幅(階級幅)にし、階級を設定する。度数分布表ができたら、その度数を棒グラフにしたものがヒストグラムである。
作成されたヒストグラム…中央と中心に左右が山のようになだらかに減少している(正規分布に近いグラフになっている)。
度数分布表とヒストグラムを見れば、集めたデータ(標本)からそのデータのおおよその分布状況を把握することができる。
7.2 データの標準化
データを標準化すると、平均=0 分散=1の分布に変換される。データを標準化するには、
7.3 偏差値
データを標準化すると、平均=0 分散=1 に変換される。この変換されたデータを平均=50 標準偏差=10にしたものが偏差値である。
偏差値=(標準データ×10)+50
「小標本の時の(標本数30以下)母平均の差の検定」
8. 対応のある2群の母平均の差の検定
対応あるかないかの違いは、同一の固体についてのデータかまたは違う固体についてのデータかの違いである。
8.1 2群母集団がほぼ正規分布に従いかつ対応のある時 → t検定実施
教育を受ける前の試験の成績と、教育を受けた後の試験の成績に違いが認められるかを危険率(有為確率)5%で検定を実施する。2群はともに正規母集団に従うものとする。
(1)2群のデータを入力する。
(2)ツール→分析ツール→t検定:1対の標本による平均の検定をクリック
変数1の入力範囲は、前点数のデータ範囲を指定。変数2の入力範囲は、後点数のデータ範囲を指定。
出力先は、計算結果を表示する位置であり、先頭のセル位置を指定する。
(3)計算結果を見る
OKボタンをクリックすると、すぐに指定した位置に計算結果が表示される。
(4)検定を実施
@仮説をたてる
帰無仮説 H0:μ1=μ2 (対応ある2群の母平均は等しい)
対立仮説 H1:μ1≠μ2 (対応ある2群の母平均は等しくない)
A検定統計量を調べる
検定統計量(T)はt分布に従う。T=--2.68 通常T値は絶対値を使用するので、|T|=2.68の数値を使用する。
B危険率(有為確率)5%で検定を行う。両側検定であるので上側2.5%点を調べる。
観測されたT値は2.68であり、棄却域に入る。よって、帰無仮説は棄却される。2群の母平均に差があるといえる。教育前と教育後の母平均に差があるといえる。
また、T=2.68の時の確率=0.0189と求められており、この値は0.05よりも小さいので、棄却域に入ることがわかる。
8.2 t値に関する関数
@t値の確率を求める関数
=tdist(t値,自由度,尾部)
尾部:1…片側確率 尾部:2…両側確率
A確率からt値を求める関数
=tinv(確率,自由度)
Bデータから直接t検定を実施する関数
=ttest(変数1範囲,変数2範囲,尾部,検定の種類)
尾部:1…片側検定 尾部2:両側検定
検定の種類:1…ペア関係にある母平均の差の検定
検定の種類:2…等分散の母平均の差の検定
検定の種類:3…ウェルチの検定
ツールを使用し、得られたT値=-2.68である。この絶対値のT=2.68を使用する。
「T値から確率を求める」
T=2.68の確率を求める。片側検定では =tdist(2.68,13,1)と入力すると、0.0094504と表示される。この値は0.05より小さいので棄却域に入ることがわかる。
両側検定では=tdist(2.68,13,2)と入力すると0.0189009と表示される。この値は0.025より小さいので棄却域に入ることがわかる。
「自由度13のT値確率0.05のt値を求める」
=tinv(0.05,13)と入力すると、2.1603682と表示される。この値と求めたT値=2.68を比較すると求めたt値の方が大きいので棄却域に入ることがわかる。
「データ範囲から直接対応ある2群のt検定を両側検定で実施する」
=ttest(前点数範囲,後点数範囲,2,1)と入力すると、0.0189009と確率が表示される。この値は0.025より小さいので棄却域に入ることがわかる。
ツールを使用して検定を実施しても、関数を使用して検定を実施しても結果は同じとなる。
9. 対応のない2群の母平均の差の検定
対応のない正規母2集団の母平均の差の検定を実施する。
対応のない正規母2集団は、等分散か検定をする
等分散である→等分散の時のt検定を実施
等分散でない→等分散でない時のt検定(ウェルチの検定)を実施する
9.1 等分散の検定を実施して2群の分散を調べる
男女の体重を測定したところ下のような標本が得られた(女性1名は測定できなかったとする)。この2群の母平均に差があるといえるか有為確率5%で検定を実施する。
9.1.1 2群は等分散であるか検定し確認する
2群の分散比はF分布に従う。F分布は下のように2つの自由度に従う分布であり、有為確率5%で両側検定をすると、下側2.5%点と上側2.5%点で検定をする。しかし変数1の分散(S12)>変数2の分散(S22)となるように範囲を指定すれば、上側2.5%点を調べるだけで良い。
(1)検定する標本データを入力する。
(2)ツール→分析ツール→F検定:2標本を使った分散の検定を選択
分析用ボックスが開いたら、変数1の範囲は女性の体重の範囲を指定し、変数2の範囲は男性の体重の範囲を指定する。両側検定を実施するので、α値は0.025にする。出力先は同じシート上に指定する。OKボタンをクリックするとすぐに計算されて結果が表示される。
(3)計算結果を見る
変数1の分散=53.694であり、変数2の分散=82.9である。変数1の分散<変数2の分散となっているので、下側2.5%点を使用して検定を実施することとなる。そこで上側2.5%点を使用して検定を行うために、変数1範囲と変数2範囲の指定を逆にとるように再度検定をやり直す。
今度は変数1の分散>変数2の分散となっているので、上側2.5%点を調べればよい。
(4)検定を実施
@仮説をたてる
帰無仮説 H0 δ12=δ22 (2群の母分散は等分散である)
対立仮説 H1 δ12≠δ22 (2群の母分散は等分散ではない)
A検定統計量を調べる
観測された分散比(F)はF分布に従う。F=1.543921366 1番目の自由度:9、2番目の自由度:8である。
B有為確率5%で両側検定を実施:上側2.5%点を調べる。
F=1.54391366<F境界値:4.357218586である。依って棄却域に入らないよって帰無仮説を棄却できない。2群は等分散ではないとはいえない。
9.1.2 F値に関する関数
@F値の確率を求める関数
=fdist(F値,自由度1,自由度2)
自由度1:分子部分(変数1) 自由度2:分母部分(変数2)
A確率からF値を求める関数
=finv(確率,自由度1,自由度2)
Bデータから直接F検定を実施する関数
=ftest(変数1範囲,変数2範囲)
F分布は2つの自由度を使用するので、自由度の順番に注意しなければならない。
「関数を使用し、F値に関する各種値を求めて確認」
分散比(F値)は、変数1(男性の体重)の不偏分散を変数2(女性の体重)の不偏分散で割った値である。この分散比の値を元に検定を行う。
自由度1が9、自由度2が8となっていることに注意
観測されたF値が上側2.5%点よりも小さいので、棄却域に入らない。帰無仮説を棄却できない。
FTEST関数を使用して、直接F検定を実施し2群が等分散か検定する。
入力した式 計算結果 その1/2値
FTEST関数では、片側確率値が表示されるので、両側検定を実施するにはその値を1/2した値を使用する。この場合確率値=0.27584635であるから、この値は0.025より大きいので棄却域に入らないことがわかる。
9.2 対応のない等分散2群母集団の母平均の差の検定
9.2.1等分散である2群母集団の「母平均の差の検定」を実施…t検定
上の検定の結果、2群母分散は、等分散ではないとはいえないので、等分散の時の2群正規母集団の「母平均の差」の検定を行う。
t検定は自由度は1つであるので、自由度の順番を気にする必要はない。変数1と変数2の範囲を逆にしても同じ結果が得られる。
(1)データを入力し、分関ツールで「t検定:等分散を仮定した2標本による検定」を選択しt検定を実施する。
(2)計算結果を確認
(3)検定を実施
@仮説をたてる
帰無仮説 H0:μ1=μ2 (2群の母平均は等しい)
対立仮説 H1:μ1≠μ2 (2群の母平均は等しくない)
A検定統計量を調べる
検定統計量(T)はt分布に従う。T=-3.684367733。T値は絶対値を使用するので T=3.684367722である。
B有為確率5%で検定する。両側検定であるので上側2.5%点を調べる。
上側2.5%点を調べると、観測されたT値=3.684であり、棄却域に入る。またこの時の確率=0.001839と求められており、この値は0.05より小さいので棄却域に入ることがわかる。
依って帰無仮説を棄却する。2群の母平均に差があるといえる。
9.2.2 t検定に関する関数を使用して検定を実施
T値:3.684367733 自由度:17 両側検定での確率は=tdist(t値,17,2)から0.001839215と求められる。この値は0.05より小さいので棄却域に入ることがわかる。よって2群の母平均は等しいという帰無仮説を棄却する。
ttest関数を使用して、標本データから直接t値確率を求める。
ttest関数を使用して求められた確率値:0.001839215であり、この値は0.05より小さいので棄却域に入る。よって男女間の体重の母平均は等しいという帰無仮説を棄却する。
9.3 対応がなく等分散でない2群の母平均の差の検定
日本人とアメリカ人成人男子10人のジャンプ力調査を行い、下のような結果を得られた。この時ジャンプ力に人種間の差があるといえるか。有為水準5%で検定を行う。
(1)標本データを入力
(2)等分散の検定を実施
2群が等分散であるかどうか検定を行う。
帰無仮説は「2群の母分散は等分散」である。観測されたF値=4.154569892であり、この値は、F境界値=4.025991984よりも大きい。また確率値=0.022687184でありこの値は0.05よりも小さい。よって棄却域に入る。2群の母分散は等しいとはいえない。2群の母分散は等分散ではない。
(3)等分散でない時の「2群の母平均の差」の検定を実施
(2)から2群の母分散は等分散でないことが判明したので、2群の母平均の差の検定は「等分散でない2群の母平均の差の検定を実施
検定を実施
@仮説をたてる
帰無仮説 H0:μ1=μ2 (2群の母平均は等しい)
対立仮説 H1:μ1≠μ2 (2群の母平均は等しくない)
A検定統計量を調べる
検定統計量(T)はt分布に従う。T=1.259539868
B有為確率5%で検定する。両側検定であるので上側2.5%点を調べる。
t境界値両側:2.16036824であり、観測されたT値はこの値よりも小さい。また確率値(両側):0.229979913であり、この値は0.05よりも大きい。よって帰無仮説を棄却できない。2群の母平均は等しいといえないことはない。
10. 大標本での母平均の差の検定…Z検定
大標本(標本数30以上)での「母平均の差の検定」ではZ検定を行う。
A地域とB地域である季節の稲の成長を調べ(作物の長さを調査)、それぞれ33の標本を得られた。この結果からA地域とB地域の稲の成長に差があるといえるか有為確率5%で検定を実施する。
標本数 |
A地域 |
B地域 |
1 |
13 |
28 |
2 |
21 |
27 |
3 |
14 |
25 |
4 |
11 |
16 |
5 |
12 |
18 |
6 |
25 |
33 |
7 |
22 |
15 |
8 |
28 |
12 |
9 |
10 |
22 |
10 |
14 |
24 |
11 |
18 |
19 |
12 |
14 |
22 |
13 |
20 |
22 |
14 |
13 |
13 |
15 |
18 |
12 |
16 |
11 |
22 |
17 |
12 |
20 |
18 |
15 |
14 |
19 |
14 |
18 |
20 |
19 |
16 |
21 |
22 |
17 |
22 |
17 |
24 |
23 |
21 |
23 |
24 |
16 |
22 |
25 |
15 |
26 |
26 |
18 |
19 |
27 |
19 |
21 |
28 |
24 |
26 |
29 |
22 |
19 |
30 |
18 |
16 |
31 |
19 |
13 |
分散 |
20.39785 |
26.51613 |
10.1 分析ツールを使用して検定を実施
(1)データを入力し、それぞれの分散を求める。
標本数が30以上であるから、この分散をそれぞれの母分散と推定する。
A地域の分散:20.39785 B地域の分散:26.51613
(2)ツールを使用し、Z検定を実施
(3)計算結果を確認
(4)検定を実施
@仮説をたてる
帰無仮説 H0:μ1=μ2 (2群の母平均は等しい)
対立仮説 H1:μ1≠μ2 (2群の母平均は等しくない)
A検定統計量を調べる
検定統計量(z)はZ分布(標準正規分布)に従う。上側確率値で検定を行うと、z値としてはその絶対値を使用する。検定統計量:z=2.3337698
B有為確率5%で検定する。両側検定であるので上側2.5%点を調べる。
観測されたz値は、Z分布の上側2.5点よりも大きい。またその時の確率値は0.0196でありこの値は0.05よりも小さい。よって棄却域に入いる。2群の母平均は等しいという帰無仮説を棄却する。2群の母平均には差があるといえる。
10.2 z値に関する関数(標準正規分布に関する関数)
@z値から確率を求める
normsdist(z値) =normsdist(-2.3337698)=0.009803868
A確率からz値を求める
normsinv(確率値) =normsinv(0.025)=-1.959961082(下側2.5%点)
=normsinv(1-0.025)=1.959961082(上側2.5%点)