11. 1元配置分散分析
3群以上の母平均の差の検定を行うには、2群の母平均の差の検定をその組み合わせの回数分繰り返し実行しなければならない。このような時に1回で検定するものに「1元配置分散分析」がある。測定データにばらつきを与える要因を1つ考えるものが「1元配置分散分析」であり、2つ考えるものが「2元配置分散分析」である。ただし、各データはほぼ正規分布に従いかつ等分散であるものとする。
11.1 1元配置分散分析
ある季節の稲の成育を3地区で調べた。稲の成長は地域により差があるか有為水準5%で検定を行う。変動要因は地域による違いであり、3群の母平均の差を検定するので、1元配置分散分析を実行する。
1元配置分散分析は、分散を級間変動(因子間変動:地域による変動)と級内変動(因子内変動:同一地区内での変動)とに分けて分散比を求め、級間変動が級内変動よりも大きいか検定し、級間変動が級内変動よりも大きければ、母平均に差があるとする検定である。しかし、どの群間で差があるかは不明である。どの群間で母平均に差があるかは、ボン・フェローニの方法やシェッフェの方法などがある。
11.2 1元配置分散分析の実施
(1)標本データを入力し、ツールを使用し、1元配置分散分析を実行
標本データで集められなかったデータはそのまま空白にしておく。
ツール→分析ツール→分散分析:1元配置分散分析を選択
入力範囲は、項目行(A地区・B地区・C地区の文字の行)を含めて一度のドラッグして分析するデータ範囲を指定する。先頭の文字列の行はラベルとして使用するので、「先頭行をラベルとして使用」の蘭をクリックしてチェックする。出力先を指定し、OKボタンをクリックするとすべに「1元配置分散分析表」が計算され表示される。
(2)作成された「1元配置分散分析表」を検討する。
①級間変動の平方和SAは、各グループの平均が全平均からどれくらいばらついているかである。各水準(グループ)での平均と全標本の平均との差の平方和に各水準での標本数をかけて求める。 また級間変動の自由度は、水準数(グループ数)-1である。
②級内変動の平方和SEは、各水準のデータが各水準の平均からどれくらいばらついているかである。各水準(グループ)での平均と各データとの差の平方和を各水準で求め、さらに全水準で合計したものである。
また級内変動の自由度は、全標本数-水準数である。
③全変動の平方和STは、級間変動SAとSE級内変動を加えたものである。また全変動の自由度は、級間変動の自由度+級内変動の自由度である。
検定統計量は分散比(F): であり、自由度fA,fEのF分布に従う。
(3)検定を実施
①仮説をたてる
帰無仮説 H0:級間変動は効果がない(VA≒VE)
対立仮説 H1:級間変動は効果がある(VA>VE)
②検定統計量(F)を求める
検定統計量(F): =7.612930879 は自由度2,33のF2,33分布に従う
③有為確率5%で上片側検定を実施(VA>VEの検定であるから右片側検定を実施)
F2,33分布の5%点は3.28492433である。観測されたF値は7.612930879であり、この値は5%点F値よりも大きい。また個の時の確率:0.001911でありこの値は0.05より小さい。これから帰無仮説を棄却する。級間変動は効果があるといえる。3群の母平均に差があるといえる。稲の成長は地域により差があるといえる。しかしどの地域間で母平均に差があるか不明である。
12. 繰り返しのない2元配置分散分析
3群以上の母平均の差の検定を実施する時、そのデータがほぼ正規分布に従いかつばらつきを与える要因が2つ(級間変動を2つ)ある時を考える。ただし、因子の組み合わせによりばらつきに何らかの効果を与える交互作用(お互いに影響を与える作用)がないとする。この交互作用が認められる時には、繰り返しのある2元配置分散分析を実施する。
12.1 繰り返しのない2元配置分散分析
男女別と7つの業界別に初任給を調査したところ、下のような結果を得た。このデータから初任給の給与は業界間で差異があるか、また男女間で差異があるか、有為確率5%で検定を実施する。初任給にばらつきを与える要因は2つある。1つは業界間の違いであり、他の1つは男女間の違いである。繰り返しのない2元配置分散分析は、1元配置分散分析と同様に、全分散を級間変動と級内変動とに分け、級間変動が級内変動より大きいかどうか検定を行う。
12.2 繰り返しのない2元配置分散分析の実施
(1)データを入力する。
(2)ツールを使用し、繰り返しのない2元配置分散分析を実施
ツール→分析ツール→分散分析:繰り返しのない2元配置を選択
分析に使用するデータを範囲指定し、OKボタンをクリックすると分析結果が表示される。
(3)分析結果を検討
①全変動(T)の平方和は(ST)、全データが全平均からどれくらいばらついているかである。
と個々のデータ(Xij)差の平方和で求める。
②級間変動(A)の平方和SAは、各水準(業界)での平均が全平均からどれくらいばらついているかである。各水準(業界)での平均と全標本の平均との差の平方和に各水準での標本数をかけた求める。
また級間変動(SA)の自由度は、水準数(業界数)-1である。
③級間変動(B)の平方和SBは、各水準(男女)での平均が全平均からどれくらいばらついているかである。各水準(男女)での平均と全標本の平均との差の平方和に各水準での標本数をかけた求める。
また級間変動(SB)の自由度は、水準数(男女数)-1である。
④級内変動の平方和SEは、SE=ST-SA-SBから求める。
(3)検定を実施
(3-1)級間変動A(業界間の差異)は効果があるか検定する
①仮説をたてる
帰無仮説 H0:級間変動Aは効果がない(VA≒VE)
対立仮説 H1:級間変動Aは効果がある(VA>VE)
②検定統計量(F)を求める
検定統計量(F):FA = = 8.268292683 は自由度fA,fE(6,6)のF分布に従う
③有為確率5%で上片側検定を実施
観測されたF値:8.268は、F6,6(0.05):4.2838よりも大きい。またこの時の確率:0.00106は0.05よりも小さい、よって棄却域に入る。帰無仮説を棄却する。級間変動Aは効果があるといえる。業界間で初任給に違いがあるといえる。
(3-2)級間変動B(男女間の差異)は効果があるか検定する
①仮説をたてる
帰無仮説 H0:級間変動Bは効果がない(VB≒VE)
対立仮説 H1:級間変動Bは効果がある(VB>VE)
②検定統計量(F)を求める
は自由度fB,fE(1,6)のF分布に従う
③有為確率5%で上片側検定を実施
観測されたF値:7.31707は、F1,6(0.05):5.98737よりも大きい。またこの時の確率:0.003534は0.05よりも小さい、よって棄却域に入る。帰無仮説を棄却する。級間変動Bは効果があるといえる。男女間で初任給に違いがあるといえる。
12.3 交互作用の検討
繰り返しのない2元配置分散分析では、交互作用の有無は確認できない。交互作用の有無については、繰り返しのある2元配置分散分析を実施する必要がある。繰り返しのない2元配置分散分析を実施して、交互作用が認められるかどうかは、グラフを描いてみると可能性の有無が分かる。グラフの横軸に水準A(グループA:業界)をとり、縦軸に初任給の値をとり、水準B(男女)の給与を線グラフに作成する。この時グラフが相反したり交差したりしている時には、交互作用がある可能性がある。
グラフを描くと、2つの直線は交差もなく相反もしていないので、交互作用はないものと思われる。
13. 繰返しのある2元配置分散分析
測定データにばらつきを与える要因を2つ考える。この2つの要因についていくつかの水準(グループ)に分け複数回データを測定する。2つの要因についてそれぞれ効果があるか、また2つの因子間に交互作用があるかを検定する。
13.1 繰返しのある2元配置分散分析
4社の植物の種子の発芽状況を農薬使用・有機栽培・無農薬の3種類に分けて3回ずつ観測した。植物の発芽状況について、水準A(グループA:会社の違い)と水準B(グループB:栽培方法の違い)により、発芽状況に違いがあるかまた因子間の交互作用はあるかを、有為確率5%で検定を行う。
(1)データを入力
データは水準A(会社別)を縦方向に、水準B(栽培方法の違い)横方向にとり、連続して3回ずつのデータを入力していく。
(2)ツールを使用し、繰り返しのある2元配置分散分析を実施
ツール→分析ツール→分散分析:繰り返しのある2元配置を選択
分析に使用するデータを範囲指定し、OKボタンをクリックするとすぐに分析結果が表示される。
(3)分析結果を検討
下のような分家気結果が表示される。
分散分析: 繰り返しのある二元配置 |
|
|
|
|
|||||||
概要 |
農薬使用 |
有機栽培 |
無農薬 |
合計 |
|
|
|||||
会社A |
|
|
|
|
|
|
|||||
標本数 |
3 |
3 |
3 |
9 |
|
|
|||||
合計 |
40 |
41 |
26 |
107 |
|
|
|||||
平均 |
13.33333 |
13.66667 |
8.666667 |
11.88888889 |
|
|
|||||
分散 |
9.333333 |
2.333333 |
1.333333 |
9.111111111 |
|
|
|||||
会社B |
|
|
|
|
|
|
|||||
標本数 |
3 |
3 |
3 |
9 |
|
|
|||||
合計 |
23 |
34 |
27 |
84 |
|
|
|||||
平均 |
7.666667 |
11.33333 |
9 |
9.333333333 |
|
|
|||||
分散 |
0.333333 |
9.333333 |
7 |
6.75 |
|
|
|||||
会社C |
|
|
|
|
|
|
|||||
標本数 |
3 |
3 |
3 |
9 |
|
|
|||||
合計 |
33 |
33 |
30 |
96 |
|
|
|||||
平均 |
11 |
11 |
10 |
10.66666667 |
|
|
|||||
分散 |
1 |
1 |
4 |
1.75 |
|
|
|||||
会社D |
|
|
|
|
|
|
|||||
標本数 |
3 |
3 |
3 |
9 |
|
|
|||||
合計 |
21 |
35 |
17 |
73 |
|
|
|||||
平均 |
7 |
11.66667 |
5.666667 |
8.111111111 |
|
|
|||||
分散 |
1 |
6.333333 |
2.333333 |
9.861111111 |
|
|
|||||
合計 |
|
|
|
|
|
|
|||||
標本数 |
12 |
12 |
12 |
|
|
|
|||||
合計 |
117 |
143 |
100 |
|
|
|
|||||
平均 |
9.75 |
11.91667 |
8.333333 |
|
|
|
|||||
分散 |
9.295455 |
4.628788 |
5.515152 |
|
|
|
|||||
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|||||
分散分析表 |
|
|
|
|
|
|
|||||
変動要因 |
変動 |
自由度 |
分散 |
観測された分散比 |
P-値 |
F 境界値 |
|
||||
標本 |
72.22222 |
3 |
24.07407 |
6.37254902 |
0.002483 |
3.008786 |
|
||||
列 |
78.16667 |
2 |
39.08333 |
10.34558824 |
0.000575 |
3.402832 |
|
||||
交互作用 |
50.94444 |
6 |
8.490741 |
2.24754902 |
0.073123 |
2.508187 |
|
||||
繰り返し誤差 |
90.66667 |
24 |
3.777778 |
|
|
|
|||||
|
|
|
|
|
|
|
|||||
合計 |
292 |
35 |
|
|
|
|
|||||
最初に各水準ごとの標本数・合計・平均・分散が計算されて表示され、続けて分散分析表が表示される。分散分析表をみて検定を実施する。
(4)検定を実施
(4-1)級間変動A(会社間の差異)は効果があるか検定する
①仮説をたてる
帰無仮説 H0:級間変動Aは効果がない(VA≒VE)
対立仮説 H1:級間変動Aは効果がある(VA>VE)
②検定統計量(F)を求める
は自由度fA,fE(3,24)のF分布に従う
③有為確率5%で上片側検定を実施
観測されたF値:6.37254902は、F3,24(0.05):3.008786よりも大きい。またこの時の確率:0.002483は0.05よりも小さい、よって棄却域に入る。帰無仮説を棄却する。級間変動Aは効果があるといえる。会社間で植物の種子の発芽状況に違いがあるといえる。
(4-2)級間変動B(栽培方法の違い)は効果があるか検定する
①仮説をたてる
帰無仮説 H0:級間変動Bは効果がない(VB≒VE)
対立仮説 H1:級間変動Bは効果がある(VB>VE)
②検定統計量(F)を求める
は自由度fB,fE(2,24)のF分布に従う
③有為確率5%で上片側検定を実施
観測されたF値:10.34558824は、F2,24(0.05):3.402832よりも大きい。またこの時の確率:0.000575は0.05よりも小さい、よって棄却域に入る。帰無仮説を棄却する。級間変動Bは効果があるといえる。栽培方法の違いにより植物の種子の発芽状況に違いがあるといえる。
(4-2)交互作用は効果があるか検定する
①仮説をたてる
帰無仮説 H0:交互作用は効果がない(VA×B≒VE)
対立仮説 H1:交互作用は効果がある(VA×B>VE)
②検定統計量(F)を求める
は自由度fA×B,fE(6,24)のF分布に従う
③有為確率5%で上片側検定を実施
観測されたF値:2.24754902は、F6,24(0.05):2.508187よりも小さい。またこの時の確率:0.073123は0.05よりも大きい、よって棄却域に入らない。帰無仮説を棄却する事はできない。交互作用か効果がないを棄却できない。
以上から種子の発芽状況は、会社間で差異がありまた栽培方法でも差異が認められる。しかし、水準1(会社間の違い)と水準2(栽培方法の違い)という2つの因子間の交互作用は効果がないという仮説は棄却できない。
(5)プーリング
交互作用に効果がないと判明した時には、交互作用の変動を級内変動にプール(一緒にする)して再度2元配置分散分析を実施するのが望ましい。
プールした後の級内変動E'の平方和をSE'また自由度をfE'とすると
平方和はSE'=SE+SA×B 自由度はfE'=fE+fA×Bとなる。
これによりプーリング後の水準Aの分散比(FA')は、
プーリング後の水準Bの分散比(FB')は、
以上からプーリングした後の2元配置分散分析表を作成すると
プーリングした後の分散比を用いて再度検定を実施
プーリング後の水準Aの分散比: 自由度は3と30
プーリング後の水準Bの分散比:8.279717 自由度は2と30
これからF分布に関する関数を使用して確率を求める。
水準A:F3,30=5.10039 は0.005693 水準B:F2,30=8.279717 は0.005693
この値はいずれも0.05より小さい。よって棄却域に入る。プール後も棄却域に入るので、水準A・水準Bともに効果があるといえる。
14. 2変量間に関する分析
14.1 2変量間の相関
2変量(X・Y)間に何らかの関係があるかを調べる。変量Xとそれに依存する変量Yがあり、このX・Yのペアになっているデータがn個ある時、この2変量X・Y間の関係がどれくらいあるかを調べる。いま人間の身長と体重のデータ間に何らかの関係があるかを調べる。身長も体重も正規分布に従うデータである。2変量間で何らかの関係があるかを調べるには、「散布図を作成する」→「相関係数を求める」の順番に実行し、相関関係を調べる。
14.1.1 散布図の作成
2変量の関係を視覚的に表示し、どのような関係があるかを調べる。
10人の学生が国語と数学の試験を受けた。その結果が下のようになった時、国語の点数と数学の点数間に何らかの関係があるかを調べる。
横軸に国語の点数、縦軸に数学の点数をとり、10人の学生の点数を該当する位置にプロットしていく。(散布図を作成する)
EXCELにはグラフ作成機能があるので、これを利用して散布図を作成する。
作成された散布図
作成された散布図を見ると、右上がりの直線状にデータが並んでいる傾向がある。国語の点数が高くなれば、数学の点数も高くなる傾向になっている。このような時、正の相関があるという。またこの逆に右下がりの直線の傾向がある時には、負の相関があるという。データが何らかの直線状の傾向を示さない時は、相関がないという。
散布図を作成した、下のような傾向が見られた時、それぞれ正の相関・相関無し・負の相関という。
「正の相関:右上がりの傾向」「相関無し:何等傾向なし」「負の相関:右下がりの傾向」
14.1.2 相関係数
散布図を作成した結果、右上がり・右下がりのような傾向が見られた時には、2変量間に何らかの相関がありそうなので、どれくらいの相関があるかを「相関係数」を求めて。その度合いを確認する。
相関係数をrとすると、相関係数は-1≦r≦+1の範囲の値をとる。
rが-1に近いほど負の相関が強い。rが+1に近いほど正の相関が強い。またrが0に近いほど相関がない。
(1)ツールを使用して相関係数を求める
ツール→分析ツール→相関と選択し、相関係数を求める2変量の範囲を指定
最後にOKボタンをクリックすると、相関係数行列が表示される。
国語のデータと数学のデータの相関係数:0.826305と求められた。この値は+1に近いので、強い正の相関があるといえる。
(2)関数を使用して相関係数を求める。
相関係数を求める関数…=correl(変数1範囲,変数2範囲)
(3)標準偏差・共分散を用いて相関係数を求める。
変量Xの母集団に対する標準偏差をδx、変量Yの母集団に対する標準偏差をδy、2変量(X,Y)の共分散をSxyとする時、相関係数(r)は、で求められる。
母集団に対する標準偏差を求める関数: =stdevp(変数範囲)
2変量(X,Y)の共分散を求める関数: =covar(変数1範囲,変数2範囲)
15. 単回帰分析
15.1 単回帰式を求める。
2変量間に相関がある時、この2変量間に線形回帰直線を考える。
線形回帰直線を:Y=b1x+b0として、実データとこの直線との残差をεとする。Y=b1x+b0の直線は、すべての標本データについて、その残差が最小になるように設定する必要がある。この直線から各標本データとのずれ具合を計るために、各残差の平方和をとり、この残差平方和が最小になるようにする。このような方法を最小2乗法という。標本データは、直線:Y=b1x+b0から残差(ε)ずれているので、y=b1x+b0+εと表す。これから線形回帰モデルをyi=β1xi+β0
+εi (i=1,2,…n)とする。
残差(ε)について
①εiとεjはお互いに独立であり、正規分布N(0,δ2)に従う。
②εiの期待値(平均値)は0であり、また分散は一定である。
の仮定下で、単回帰式をY=b1x+b0とすると、b1,,b0はβ1,β0の推定量である。
残差に注目し、εi=yi-Yi から εi=yi-b1・xi-b0 この残差をすべての標本について合計し、その合計を最小にするようなb1・b0を求めると、単回帰式が求められる。
Σ(εi)2=Σ(yi-b1・xi-b0)2 f=Σ(yi-b1・xi-b0)2 とした時、このfを最小にするb1・b0を求め、単回帰式を求める。
15.2 説明変量と目的変量
国語の点数をX、数学の点数をYとする。国語の点数と数学の点数間には正の相関があり、国語の点数が高くなると、数学の点数が高くなる。数学の点数(Y)は国語の点数(X)に依存している。このように2変量間に直線的な関係が認められる。この直線を計算して求めると単回帰式が求められる。この単回帰式を利用すると、国語の点数から数学の点数を予測することができる。いま予測して求めるのは「数学」の点数であり、その予測の元となるのは「国語」の点数である。このように求める変量を「目的変量または従属変量」と呼び、その予測のもととなる変量を「説明変量または独立変量」という。目的変量は常に1つであり、説明変量が1つの時を「単回帰分析」と呼び、説明変量が2つ以上の時を「重回帰分析」という。
15.3 単回帰分析を実施
15.3.1 分析ツールを使用し単回帰分析実施
(1)分析するデータを入力し、ツール→分析ツール→回帰を選択する。
①入力Y範囲は、目的変量の範囲を指定する。先頭行をラベルとして使用する時は、文字の入った項目行も範囲に入れる。
②入力X範囲は、説明変量の範囲を指定する。先頭行をラベルとして使用する時は、入力Y範囲と同様に指定する。
③分析範囲の先頭行をラベルとして使用する時は、ラベルの蘭をクリックしてチェック。
④出力先は、分析結果を表示する先頭のセル位置を指定。
⑤出力オプションとして、残差、標準化された残差をクリックしてチェック。
以上をしてごOKボタンをクリックするとすぐに分析結果が表示される。
(2)分析結果を調べる
下のような分析結果を得られる。
概要 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
重相関 R |
0.826305 |
|
|
|
|
|
|
|
重決定 R2 |
0.68278 |
|
|
|
|
|
|
|
補正 R2 |
0.643127 |
|
|
|
|
|
|
|
標準誤差 |
13.94262 |
|
|
|
|
|
|
|
観測数 |
10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
分散分析表 |
|
|
|
|
|
|
|
|
|
自由度 |
変動 |
分散 |
観測された分散比 |
有意 F |
|
|
|
回帰 |
1 |
3347.328 |
3347.328 |
17.21907 |
0.003211 |
|
|
|
残差 |
8 |
1555.172 |
194.3966 |
|
|
|
|
|
合計 |
9 |
4902.5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
係数 |
標準誤差 |
t |
P-値 |
下限 95% |
上限 95% |
下限 95.0% |
上限 95.0% |
切片 |
15.17241 |
9.802094 |
1.547875 |
0.160242 |
-7.43127 |
37.7761 |
-7.43127 |
37.7761 |
国語 |
0.741379 |
0.178663 |
4.149587 |
0.003211 |
0.32938 |
1.153378 |
0.32938 |
1.153378 |
|
|
|
|
|
|
|
|
|
残差出力 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
観測値 |
予測値: 数学 |
残差 |
標準残差 |
|
|
|
|
|
1 |
22.58621 |
-7.58621 |
-0.57711 |
|
|
|
|
|
2 |
37.41379 |
-17.4138 |
-1.32472 |
|
|
|
|
|
3 |
74.48276 |
15.51724 |
1.180447 |
|
|
|
|
|
4 |
44.82759 |
15.17241 |
1.154215 |
|
|
|
|
|
5 |
67.06897 |
-17.069 |
-1.29849 |
|
|
|
|
|
6 |
44.82759 |
-4.82759 |
-0.36725 |
|
|
|
|
|
7 |
30 |
10 |
0.760733 |
|
|
|
|
|
8 |
52.24138 |
7.758621 |
0.590224 |
|
|
|
|
|
9 |
81.89655 |
-11.8966 |
-0.90501 |
|
|
|
|
|
10 |
59.65517 |
10.34483 |
0.786965 |
|
|
|
|
|
(2-1)回帰係数に関する分析結果を検討
回帰統計 |
|
重相関 R |
0.826305 |
重決定 R2 |
0.68278 |
補正 R2 |
0.643127 |
標準誤差 |
13.94262 |
観測数 |
10 |
①重相関R
重相関Rとは、重相関係数であり、目的変量Y(実際の数学の点数)と回帰式より得られた予測値Y'(回帰式から得られた数学の予測点数)の2変量間の相関係数のことである。R=0.826305であり、2変量間の相関はかなり高いといえる。説明変量(国語の点数)と目的変量(数学の点数)間の相関係数ではなく、目的変量と予測値変量との相関である。
②重相関R2
実測データは、単回帰直線のまわりにばらついて散在している。このばらつきの小さいほど単回帰式のあてはまりが良い(精度が高い)直線といえる。また説明変量(X)の目的変量(Y)に与える影響が大きいといえる。つまり決定力が大きいといえるので、R2を決定係数ともいう。
回帰直線
③補正R2
決定係数や重相関係数は、説明変量の個数を増やしていくと単純に大きくなる傾向がある。そこで、単純に説明変量の数を増やしても、決定係数が大きくならないように調整したものに自由度調整済み決定係数(補正R2)がある。
(2-2)回帰式の信頼性を検定
(2-2.1) 分散分析表を使用する方法
回帰式を使用して、説明変量から目的変量の値を予測する時、その予測値がどれくらい信頼性があるのかを検定する方法に、分散分析表を使用する方法がある。分散分析表では、全変動(ST)を回帰よる変動(SR)と残差による変動(SE)とに分け、回帰による変動(SR)が残差による変動(SE)よりも小さければ、回帰直線で求めた予測値は、残差による影響の方が大きいので予測には役立たないとする方法である。実測値の変動(ST)=回帰による変動(SR)+残差による変動(SE)。
残差が小さいほど、実測値の変動(ST)≒回帰による変動(SR)となり、良い予測値を得られる。
単回帰の時の分散分析表は下のようになる。
自由度1,n-2のF分布に従う。VRがVEよりも大きいか検定するので、右片側検定を実施する。
分散分析表 |
|
|
|
|
|
|
自由度 |
変動 |
分散 |
観測された分散比 |
有意 F |
回帰 |
1 |
3347.328 |
3347.328 |
17.21907 |
0.003211 |
残差 |
8 |
1555.172 |
194.3966 |
|
|
合計 |
9 |
4902.5 |
|
|
|
①仮説をたてる
帰無仮説 H0:回帰直線は予測に役立たない((VR≒VE)
対立仮説 H1:回帰直線は予測に役立つ(VR>VE)
②検定統計量(F)を調べる
③有為水準5%で右片側検定を実施
自由度1,8の上側0.05%は関数を使用して、=FINV(0.05,1,8)=5.317645と計算される。
観測されたF値は、F1,8(0.05)=5.317645よりも大きい。また個の時の確率:0.003211であり、この値は0.05よりも小さい。よって棄却域に入る。帰無仮説を棄却する。回帰式は予測に役立つといえる。
(2-2-2) 決定係数を使用する方法
決定係数(R2)を使用して、回帰式の検定を実施する。決定係数を見ると、全変動に対する回帰変動の割合が分かるので、この値が大きいほど回帰式の信頼性は高いといえる。全変動に占める回帰変動がR2%あるといえる。
(2-3) 偏回帰係数とY切片の信頼性を検定
回帰式自体は分散分析の結果信頼性があると判明した。単回帰式は、Y=b1x+b0で表される。この時b1を偏回帰係数と呼び、b0をY切片という。この偏回帰係数とY切片が信頼できるか検定を行う。
①標準誤差(SE:Standard Error)
標準誤差(SE)とは、推定値の標準偏差(SD)をいう。
説明変量(X)・実測値(y)・予測値(Y)・残差(ε)・残差平方(ε2)の関係を表にする。
|
係数 |
標準誤差 |
t |
P-値 |
下限 95% |
上限 95% |
下限 95.0% |
上限 95.0% |
切片 |
15.17241 |
9.802094 |
1.547875 |
0.160242 |
-7.43127 |
37.7761 |
-7.43127 |
37.7761 |
国語 |
0.741379 |
0.178663 |
4.149587 |
0.003211 |
0.32938 |
1.153378 |
0.32938 |
1.153378 |
説明変量(国語)の標準誤差は、上の計算式から0.178663。またY切片の標準誤差:9.802094と計算され求められている。
(2-3-1) 偏回帰係数(b1)の信頼性を検定する。
①仮説をたてる
帰無仮説 H0:β1=0 (説明変量Xの母回帰係数は0である)
対立仮説 H1:β1≠0 (説明変量Xの母回帰係数は0ではない)
②検定統計量(T)を求める
③有為水準5%で両側検定を実施
自由度8のt分布上側0.025%点は=tinv(0.05,8)=2.306006である。観測されたt値:4.149587はこの値よりも大きい。またこの時の確率:0.003211であり0.05よりも小さい。よって棄却域に入る。帰無仮説を棄却する。偏回帰係数(b1)は予測に役立つといえる。
(2-3-2) Y切片(B0)の信頼性を検定する。
①仮説をたてる
帰無仮説 H0:β0=0
対立仮説 H1:β0≠0
②検定統計量(T)を求める
③有為水準5%で両側検定を実施
自由度8のt分布上側0.025%点は=tinv(0.05,8)=2.306006である。観測されたt値:1.547875はこの値よりも小さい。またこの時の確率:0.160242であり0.05よりも大きい。よって棄却域に入らない。帰無仮説を棄却することはできない。Y切片(b0)は予測に役立たないという帰無仮説を棄却できない。
以上から、回帰直線自体は予測に役立つといえる。また偏回帰係数(b1)は予測に役立つが、Y切片(b0)は予測に役立つとはいえない。
(2-4) 回帰式を使用した予測値
回帰分析により求められた単回帰予測式は、Y=0.741379x+15.17241である。この式を用いて、国語の点数から数学の点数を予測する。
x:国語の点数であるから、順次この国語の値を入れて数学の点数Yを計算して求める。なお、分析ツールでは、この予測値も計算されて表示されている。
(2-5) 残差を調べる
残差(ε)は、実測値(y)と予測値(Y)の差である。εi=yi-Yi
この残差を標準化すると、元のデータの大きさや単位を気にせずに済む。標準化された残差は、標本に基づく残差の標準偏差を求め、各残差をその標準偏差で割る。
この標準残差の値が±3.0を越えていれば「はずれ値」の可能性がある。
(2-6) 単回帰式を使用して、未知の値を予測する。
説明変量(国語)の値はわかっているが、目的変量(数学)の点数が不明な時、求めた単回帰式を使用して、値を予測する。このように求めた単回帰式を使用して未知の値を予測する時は、使用した説明変量の範囲内で予測する事が望ましい。使用した説明変量から大きく外れた範囲で予測すると、誤差が大きくなり実用に適さなくなる。
説明変量である国語の点数は10以上90以下である。そこでこの範囲内での国語の点数を使用ようにする。いま国語の試験だけ受けたものが3名いたとする。その点数は、25、68、72、80点であった。この4名の数学の点数は何点と予想されるか。単回帰式を使用して予測する。
求めた単回帰式:Y=0.741379x+15.17241 xの部分は国語の点数であるから、ここに国語の点数をいれて順次値を計算する。
下の表のように予測値を得ることができる。
|
国語 |
入力した式 |
計算結果 |
11 |
25 |
=0.74137931*B15+15.17241379 |
33.7068966 |
12 |
68 |
=0.74137931*B16+15.17241379 |
65.5862069 |
13 |
72 |
=0.74137931*B17+15.17241379 |
68.5517241 |
14 |
80 |
=0.74137931*B18+15.17241379 |
74.4827586 |
15.3.3 回帰に関する関数
分析ツールを使用しなくても、回帰に関する関数を使用すれば回帰直線と予測値を求めることができる。
(1)単回帰直線に関する関数
①単回帰直線の傾きを求める関数(変量Xの係数項)
=slope(目的変量の範囲,説明変量の範囲)
②単回帰直線のY切片を求める関数
=intercept(目的変量の範囲,説明変量の範囲)
③一度に単回帰直線の傾きとY切片を求める関数
=linest(目的変量の範囲,説明変量の範囲,[定数],[補正])
定数は指定しなくてもよい。補正はtrue,falseのいずれかを指定、省略するとfalseとみなされる。trueを指定すると、回帰に関する分析情報が表示されるただしlinest関数では、配列数式を作成しなければ表示されない。。
(2)相関係数に関する関数
①2変量間の相関係数を求める関数
=correl(変量1範囲,変量2範囲)
②決定係数(R2)を求める関数
=rsq(目的変量の範囲,説明変量の範囲)
(3)単回帰式を使用して予測値を求める関数
①予測値を求める関数
=trend(目的変量の範囲,説明変量の範囲,定数)
=forecast(定数,目的変量の範囲,説明変量の範囲)
(2)関数を使用して、単回帰式を求める。
単回帰式は、Y=b1x+b0
目的変量(数学の点数)の範囲:C3:C12、説明変量(国語の点数)範囲:B3:B12である。
傾き:=slope(目的変量範囲,説明変量範囲)から0.74137931と求められる。
Y切片:=intercept(目的変量範囲,説明変量範囲)から15.1724438と求められる。
よって、単回帰式は、Y=0.74137931X+15.1724438と求められる。
重相関係数:=rsq(目的変量範囲,説明変量範囲)より0.68277972
相関係数は2変量X・Yの相関であるから=correl(変量1範囲,変量2範囲)より0.82630486
(3)説明変量(国語の点数)が25点の時の目的変量(数学の点数)を関数で求める。
国語の点数)(25)セル:B15
=trend(目的変量範囲,説明変量範囲,国語の点数)より数学の点数は33.7068966点と予測
=forecast(国語の点数,目的変量範囲,説明変量範囲)より数学の点数は33.7068966点と予測
(3)単回帰直線の傾きとY切片を一度の求める関数の使用
計算結果として、「傾き」と「Y切片」の2つの値が欲しい。その他の分析結果も表示させる。
①=linest(目的変量範囲,説明変量範囲,,true)でまず直線の傾きを求める。
※trueを省略すると、各変量の係数とY切片値だけの表示となる。
②配列数式を作成する。
求めたい変数は2つ、いま1つめの傾きが求められているので、他の1つを配列数式で表示させる。
関数を入力した位置から右側に1セル分ドラッグし、更に下方向に5行分範囲指定する(求めたい数値が2つある)→数式バーをクリックしてアクティブにする→CTRLキー+SHIFTキー+ENTERキーを押すと、2番目に数値:Y切片やその他の分析結果が表示される。
③linest関数の計算結果を確認
linest関数を使用し、配列数式にすると下のような計算結果が表示される。
|
Y切片 |
X1の標準誤差 |
Y切片の標準誤差 |
決定係数 |
標準誤差 |
分散比 |
自由度 |
回帰の平方和 |
残差の平方和 |
これから、傾き:0.741379 Y切片:15.1724138
よって単回帰式:Y=0.741379X+15.1724438と求められる。
またこの単回帰式の信頼性は分散比(F):17.21907 自由度1、8のF分布を調べればよい。(単回帰では1番目の自由度は1)
回帰の平方和は3347.328 自由度:1 残差の平方和:1555.17241 自由度:8
VR=3347.328 VE=1555.17241÷8=194.39655 と求められる。
=finv(0.05,1,8)=5.317645から自由度1,8の上側0.05確率のF値を比較すればよい。
検定統計量(F)=17.219>F1,8(0.05)=5.317645 であるから VR≒VEという帰無仮説を棄却できる。
16. 重回帰分析
単回帰分析では、目的変量は1つ説明変量も1つであった。目的変量は常に1つ(予測する値は1つ)であるが、説明変量が2つ以上の時を重回帰分析という。単回帰に比べ精度は上がるが、実務上では、無駄な変量を使っていないか検定する必要があり、無駄な変量を使わず(変量選択法)最良の重回帰式を得る必要がある。
16.1 重回帰式を求める
一般に説明変量がp個ある時の重回帰モデルは yi=β1・x1i+β2・x2i+…+βp・xpi+β0+εi (i=1,2、 …n)で表される。この時単回帰式を同様に
残差(ε)について
①εiとεjはお互いに独立であり、正規分布N(0,δ2)に従う。
②εiの期待値(平均値)は0であり、また分散は一定である。
の仮定下で、重回帰式をYi=b1・x1i+b2・x2i+…+bp・xpi+b0とすると、b0,,b1…bpはβ0,β1…βpの推定量である。
b0,,b1…bpを偏回帰係数と呼び、β0,β1…βpを母偏回帰係数という。単回帰式と同様に残差平方和Σ(εi)2を最小にするような、b0,,b1…bpを求めればよい。
16.2 重回帰分析を実施
16.2.1 分析ツールを使用して重回帰分析実施
あるスーパーで、支店8店舗について売り場の構成度・店員の教育度・商品の従事度と店舗1㎡あたりの売上を調査したところ、下のような結果が得られた。売上を目的変量とし、売り場構成度・店員教育度・商品充実度を説明変量として重回帰分析を実施する。
売り場構成度:7 店員教育度:5 商品充実度:5 の店舗を新規に開店するとすると売り上げは1㎡あたりいくらと予測されるか。
(1)分析するデータを入力する。
※説明変量を入力する時は、行または列方向に連続した範囲に入力する。
(2)ツール→分析ツール回帰を選択する。
入力範囲(Y)は目的変量の範囲である。入力範囲(X)は説明変量の範囲である。ここでは説明変量が3列連続してあるので、説明変量の範囲をすべて巣指定する。なお、先頭行の文字をラベルとして指定すので、ラベルをクリックして選択ししておく。残差・標準化された残差の蘭もクリックしてチェックしておく。全ての設定が終了したら、OKボタンをクリックして分析を開始する。
(3)分析結果を検討
(3-1)重相関係数関係
回帰統計 |
|
重相関 R |
0.98651286 |
重決定 R2 |
0.97320763 |
補正 R2 |
0.95311334 |
標準誤差 |
0.86613306 |
観測数 |
8 |
重相関係数(R):0.98651286…目的変量と回帰式より求めた予測値の相関はかなり高いことがわかる。
重決定係数(R2):0.97320763…回帰変動の比率がかなり高く、重回帰式は信頼性があると思われる。
(3-2)求めた重回帰式の信頼性を分散分析表で確認
分散分析表 |
|
|
|
|
|
|
自由度 |
変動 |
分散 |
観測された分散比 |
有意 F |
回帰 |
3 |
108.9993 |
36.33308 |
48.43207 |
0.001334 |
残差 |
4 |
3.000746 |
0.750186 |
|
|
合計 |
7 |
112 |
|
|
|
観測された分散比(F)は自由度3,4のF分布に従う。いま分散比(F):48.43207であり、その確率値:0.001334である。
検定を実施
①仮説をたてる
帰無仮説 回帰直線は予測に役立たない(VR≒VE)
対立仮説 回帰直線は予測に役立つ (VR>VE)
②検定統計量を求める
検定統計量(F)=48.43207は、自由度3,4のF分布に従う。
③有為確率5%で上片側検定を実施
なお、F3,4(0.05)を調べると、6.591392である。=fdist(0.052,3,4)で求められる。
観測値(F):48.43207>F3,4(0.05):6.591392であり、この時の確率値:0.001334は0.05よりも小さい。よって棄却域に入る。帰無仮説を棄却する。回帰式は予測に役立つといえる。
(3-3)偏回帰式の信頼性を確認
|
係数 |
標準誤差 |
t |
P-値 |
下限 95% |
上限 95% |
下限 95.0% |
上限 95.0% |
切片 |
-1.3788229 |
1.279866 |
-1.07732 |
0.341975 |
-4.93231 |
2.174662 |
-4.93231 |
2.174662 |
売り場 |
0.11984513 |
0.242232 |
0.494754 |
0.646716 |
-0.5527 |
0.792389 |
-0.5527 |
0.792389 |
店員 |
1.06212482 |
0.289351 |
3.670711 |
0.021378 |
0.258755 |
1.865494 |
0.258755 |
1.865494 |
商品 |
1.54583881 |
0.197781 |
7.815898 |
0.001446 |
0.996709 |
2.094969 |
0.996709 |
2.094969 |
各偏回帰係数よY切片値はX1:0.11984513 X2:1.06212482 X3:1.54583881 Y切片:-1.3788229
よって求められた重回帰式はY=0.11984513X1+1.06212482X2+1.54583881X3-1.3788229
次に各説明変量の信頼性を検討する。
①売り場(X1変量)
t値:0.494754 この時の確率:0.646716.これは「帰無仮説:説明変量X1は予測に役立たない」を棄却できない。よって変量X1と予測に役立つとはいえない。
②店員(X2変量)
t値:3.670711 この時の確率:0.021378これは「帰無仮説:説明変量X2は予測に役立たない」を棄却する。よって変量X2は予測に役立つといえる。
③商品(X3変量)
t値:7.815898 この時の確率:0.001446これは「帰無仮説:説明変量X3は予測に役立たない」を棄却する。よって変量X3は予測に役立つといえる。
④Y切片
t値:-1.07732 この時の確率:0.341975これは「帰無仮説:Y切片は予測に役立たない」を棄却できない。よってY切片は予測に役立つとはいえない。
以上から求められた重回帰式は予測に役立つといえるが、変量X1(売り場の構成度)とY切片は予測に役立つとはいえない。
(3-4)予測値と残差を検討
分析するデータと、重回帰式を使用した予測値の表を合わせてみると下のような表になる。
実売上データと、回帰式から得られたデータの差が残差であり、残差も計算されて表示されている。
|
x1 |
x2 |
x3 |
y |
|
||
NO |
売り場 |
店員 |
商品 |
売上げ |
予測値: 売上げ |
残差 |
標準残差 |
1 |
2 |
6 |
8 |
18 |
17.6003268 |
0.3996732 |
0.6104350 |
2 |
4 |
4 |
6 |
12 |
12.6240898 |
-0.6240898 |
-0.9531944 |
3 |
4 |
2 |
8 |
14 |
13.5915178 |
0.4084822 |
0.6238893 |
4 |
2 |
3 |
2 |
6 |
5.1389195 |
0.8610805 |
1.3151587 |
5 |
5 |
4 |
6 |
12 |
12.7439349 |
-0.7439349 |
-1.1362381 |
6 |
2 |
3 |
4 |
8 |
8.2305971 |
-0.2305971 |
-0.3521991 |
7 |
1 |
4 |
5 |
10 |
10.7187156 |
-0.7187156 |
-1.0977197 |
8 |
5 |
5 |
7 |
16 |
15.3518986 |
0.6481014 |
0.9898683 |
売り場構成度(変量X1):7 店員教育度(変量X2):5 商品充実度(変量X3):5 の時売上はいくらと予測されるか、求めた重回帰式を使用して計算して求める。
求められた重回帰式:Y=0.11984513X1+1.06212482X2+1.54583881X3-1.3788229
この式にX1・X2・X3の変量の数値を入力すると、Y=12.4999≒12.5と求められる。
1㎡あたり12.5の売上となるであろう。
16.2.2 重回帰に関する関数を使用して重回帰分析を実施
単回帰分析の時は、目的変量は1つ、説明変量も1つであった。しかし重回帰分析の時は、目的変量は1つであるが、説明変量は2つ以上となる。重回帰式を求めるには、使用している説明変量ごとの係数とY切片が必要となる。
(1)各変量の係数とY切片、重回帰式の検定を実施する関数:=linest関数使用
=linest関数:=linest(目的変量範囲,説明変量範囲,,true)
①まず=linest関数で、商品(説明変量X3)の係数を求める。
②先頭が求まったら、配列式を指定
いま使用している説明変量は3つ、よって係数は説明変量が3つとY切片が1つの計4つの係数が必要であるから、配列指定は横方向に4列分必要。また縦方向には、常に5行分の範囲が必要。よって配列指定の範囲は、横へ4列・縦へ5行分指定する。次に数式バーをクリックしアクティブにした後、CTRLキー+SHIFTキー+ENTERキーを押して配列式を完成する。
X3係数 |
X2係数 |
X1係数 |
Y切片 |
|
1.5458388 |
1.0621248 |
0.11984 |
-1.378822 |
|
X2標準誤差 |
X1標準誤差 |
X4標準誤差 |
|
0.1977813 |
0.2893512 |
0.24223 |
1.2798659 |
決定係数 |
標準誤差 |
|
|
|
0.9732076 |
0.8661330 |
#N/A |
#N/A |
分散比 |
残差自由度 |
|
|
|
48.432070 |
4 |
#N/A |
#N/A |
回帰平方和 |
残差平方和 |
|
|
|
108.99925 |
3.0007459 |
#N/A |
#N/A |
④関数で求められた各値を、回帰分析用に解釈する。
1行目には、各説明変量の係数がX3・X2・X1・Y切片の順に表示される。これから求める重回帰式:Y=0.11984513X1+1.06212482X2+1.54583881X3-1.3788229 が求められる。
決定係数(R2):0.9732076
分散比(F):48.432070 分散比(F)の自由度は2つあり、計算結果は2番目の残差の自由度が表示されている。1番目の自由度は、回帰変動(SR)の自由度であり、説明変量の個数(p)である。いまは3つ使用しているので、1番目の自由度は3である。2番目の自由度は、残差変動(SE)の自由度であり、標本数(n)-説明変量個数(p)-1である。これは4と計算されて表示されている。以上から観測された分散比(F)は自由度3,4のF分布に従う。さらに関数を使用してF3,4(0.05)を求めれば、上側5%点のF値がわかるので、この値と観測された分散比(F)を比較すればよい。F3,4(0.05)は関数では、=finv(0.05,3,4)であり、この値は6.591392321と表示される。また分散比(F):48.432070 自由度3,4の確率値は、=fdist(48.43207,3,4)から0.001334と求められる。以上をまとめで図表表示すると下のようなグラフとなる。これは分析ツールで求めた値と同じになる。
棄却域に入るので、回帰変動は効果がないを棄却する。回帰変動は効果がある。求めた回帰式は予測に役立つといえる。
(2)trend関数で予測値を求める。
trend関数を使用すれば、重回帰式を自動的に求めて、その重回帰式による予測値を結果として表示してくれる。
trend関数:=trend(目的変量範囲,説明変量範囲,定数)であるが、ここで目的変量は範囲指定後f・4キーを押して、絶対座標にする。また説明変量の範囲指定後同様にf・4キーで絶対座表示する。定数の範囲は、説明変量のX1・X2・X3の先頭行を指定すればよい。このようにしておけば、そのまま下方向に向かってコピーするとすべての予測値がすぐに求められる。
売り場構成度:7 店員教育度:5 商品充実度:5 の時の1㎡あたりの売上を予測するには、説明変量データの下の空いている行にデータをX1・X2・X3の順に入力し、上の式を続けてそのまま下にコピーすればよい。求められた結果は12.999112であり、分析ツールで求めた結果と同じ値を得ることができる。
16.2.3 重回帰分析の多重共線性
説明変量間でお互いに高い相関があり、時には偏回帰係数を求めることができないという現象を引き起こすことがある。これを多重共線性という。説明変量間でお互いに高い相関があるということは、どちらも同じことを説明している変数なので、どちらか一方の変量があれば充分であるといえる。重回帰式を求めるにあたり、多重共線性がある時にはどちらかの説明変量を落として求める必要がある。
(1)多重共線性の有無
多重共線性があるかどうかは下のような要因を調べればよい。
①説明変量間の単相関係数を求め、単相関係数が1または-1に近いものがあれば多重共線性が認められる。
②多重共線性が認められる時には、変回帰係数を求められないとか、変回帰係数の符号と説明変量・目的変量間の単相関係数が一致しないという現象を起こす。
(2)多重共線性の例
説明変量X1~X3と目的変量Yが下のようにあるとする。
説明変量(X1~X3)の2変量間の単純な相関係数を「単相関係数」という。この単相関係数を説明変量間で調べる。単相関係数(X1・X2):1 単相関係数(X1・X3):0.852435 単相関係数(X2・X3):0.852435 となっている。単相関係数(X1・X2)は1となっている。このことは、説明変量X1と説明変量X2は同じ事を説明しているので、どちらか一方の変量を使用すれば、他方の変量は不要な変量である。どちらかの変量を落として、重回帰分析をする必要がある。
説明変量X2は説明変量X1の0.8倍となっている。これはまったく同じ事を説明していることになる。
※単相関係数は、あくまでも単純な2変量間の相関係数のことである。重回帰分析では、使用している説明変量の数が2つ以上となるために、お互いに影響し合うので、単相関係数が2変量間の関係を表すとは限らない。多変量で2変量間の正確な関係を求めるには、偏相関係数を求める必要がある。
16.2.4 標準偏回帰係数
説明変量がどれくらい目的変量に影響を与えているか(寄与しているか)を調べるには、求めた重回帰式の偏回帰係数を見ればよい。偏回帰係数が大きいほど目的変量に与える影響が大きいといえる。しかし、説明変量間で単位が異なる時には、単位の影響を受けるので、単純に偏回帰係数の大小を決めることはできない。単位の影響を取り除くには、データを標準化すればよい。データを標準化することにより、平均=0 分散=1となり単位の影響を受けなくなるので、標準化したデータから偏回帰係数を求めるようにする。このように標準化したデータから求めた偏回帰係数を「標準偏回帰係数」という。標準偏回帰係数が大きいほど、目的変量に与える影響が大きく、寄与の大きい変量といえる。
先の例題のデータを標準化すると下のような表になる。
この例では、説明変量の単位が同じであるから、求められた偏回帰係数を比較するだけでよいが、標準化して確認してみる。
標準化したデータのみ抜き出しして、新しい表を作成する
この標準化された各データを使用して、重回帰分析すると、各偏回帰係数は、上のような表となる。この標準化された偏回帰係数を見ると、商品の偏回帰係数が一番大きく、次に店員の偏回帰係数となっている。説明変量X3(商品)の目的変量(売上げ)与える影響が一番大きい。
また式を使用して、標準化した偏回帰係数を求めても同じ結果を得られる
標準化前の変量X1:0.119845132 X1の標準偏差÷Yの標準偏差=0.3881619
標準化した時の変量X1の係数:0.119845132×0.3881619=0.046519
他の説明変量について行っても同様の結果となる。