［５］標準誤差（ＳＥ：Standard Error）について

　　　　　　　　　　　　　　　　　　　　　　　　　ホームに戻る

１．６　標準誤差（ＳＥ：Standard Error）

　標準誤差とは、推定値の標準偏差（ＳＤ）をいう。

　　いま、標本ｎ₁個から得られた回帰式を　Ｙ₁＝ｂ₁₁･ｘ₁₁＋ｂ₂₁･ｘ₂₁＋…＋ｂ_p1･ｘ_p1

　　次の標本ｎ₂個から得られた回帰式を　　Ｙ₂＝ｂ₁₂･ｘ₁₂＋ｂ₂₂･ｘ₂₂＋…＋ｂ_p2･ｘ_p2

以下同様にしてこれを何回か繰り返すと係数ｂ₁ は正規分布に従うことが分かっている。同様にｂ₂…ｂ_pについてもそれぞれ正規分布に従う。この時の標準偏差を標準誤差という。

1.6.1　標準誤差を求める

（１）単回帰の時

単回帰式をＹ_i＝ｂ₁･ｘ_i＋ｂ₀とすると

残差はε_i＝ｙ_i－Ｙ_i であるから、残差平方和（Ｓ_E）は∑ε_i2＝∑（ｙ_i－Ｙ_i）²

説明変量ｘの偏差平方和をＳ_XXとすると、Ｓ_XX＝∑（ｘ_i－ｘ）²

残差の不偏分散ＶEは、Ｖ_E＝Ｓ_E／（ｎ－２）

重回帰式をＹ_i＝ｂ₁･ｘ_1i＋ｂ₂･ｘ_2i＋…＋ｂ_p･ｘpi＋ｂ₀　とすると

残差はε_i＝ｙ_i－Ｙ_iで、残差平方和（Ｓ_E）は ∑ε_i²＝∑（ｙ_i－Ｙ_i ）²

自由度は、ｎ－ｐ－１

不偏分散はＶ_E＝Ｓ_E／（ｎ－ｐ－１）

１．７　偏回帰係数の検定

標本から得られた回帰式の信頼性については、分散分析を行うことにより検定することができる。回帰式が予測に役立つとしたとき、次に偏回帰係数が有効かどうか検定し、有効でない偏回帰係数は予測結果に影響を与えていないので、使用しなくてもよい係数ということになる。

いま、重回帰モデルを、ｙ_i＝β₁･ｘ_1i＋β₂･ｘ_2i＋…＋β_p･ｘ_pi＋β₀＋ε_i （i＝1,2 …ｎ）とするとき

残差εについて、

　①εiとεjはお互いに独立であり、正規分布　Ｎ（０，σ²）に従う。

　 ②εiの平均値（期待値）は０である。

　 ③εiの分散は一定である。　

との仮定下で重回帰予測式を

Ｙ_i＝ｂ₁･ｘ_1i＋ｂ₂･ｘ_2i＋…＋ｂ_p･ｘ_pi＋ｂ₀ とする。

母偏回帰係数β_i＝０を検定することにより、その偏回帰係数が予測結果に影響を与えうる係数かどうかの検定を行う。

1.7.1　単回帰における回帰係数および定数項の検定

　　単回帰式を　Ｙ＝ｂ₁･ｘ＋ｂ₀ とする。

（１）回帰係数ｂ1の検定

　　検定統計量をｔとすると

この検定統計量ｔはｎ－２のｔ分布に従う。

(1)仮説をたてる

　　帰無仮説Ｈ₀：β₁＝０（説明変量ｘの母回帰係数は０である）

　　対立仮説Ｈ₁：β₁≠０（説明変量ｘの母回帰係数は０でない）

(2)検定統計量ｔを求める

（２）定数項ｂ₀の検定

　　　検定統計量ｔは、自由度ｎ－２のｔ分布に従う

(1)仮説をたてる

　帰無仮説Ｈ₀：β₀＝０

　対立仮説Ｈ₁：β₀≠０

(2)検定統計量ｔは、自由度ｎ－２のｔ分布に従う

(3)有為水準αで両側検定を行う

1.7.2　重回帰における偏回帰係数および定数項の検定

　　　重回帰式をＹ_i＝ｂ₁･ｘ_1i＋ｂ₂･ｘ_2i＋…＋ｂ_p･ｘ_pi＋ｂ₀ とする

（Ⅰ）偏回帰係数ｂ_iの検定

検定統計量をｔとする

　ただし、ＳＥ：偏回帰係数ｂiの標準誤差

(1)仮説をたてる

帰無仮説Ｈ₀：β_i＝０　（説明変量ｘ_iは予測に役立たない）

対立仮説Ｈ₁：β_i≠０　（説明変量ｘiは予測に役立つ）

(2)検定統計量ｔは自由度ｎ－ｐ－１のｔ分布に従う

(3)有為水準αで両側検定を行う

(1)仮説をたてる

帰無仮説Ｈ₀：β₀＝０　（定数項は予測に役立たない）

対立仮説Ｈ₁：β₀≠０　（定数項は予測に役立つ）

(2)検定統計量ｔは自由度ｎ－ｐ－１のｔ分布に従う

(3)有為水準αで両側検定を行う

１．８　多重共線性について

説明変量間においてお互いに高い相関がある時、偏回帰係数を求めることができないという現象を引き起こす。これを多重共線性という。説明変量間でお互いに高い相関があるということは、どちらも同じことを説明している変数なのでどちらか一方の変量があればよい。重回帰式を求めるにあたり、多重共線性があるときにはどちらかの説明変量を落として求める必要がある。　

多重共線性の有無については、

(1)説明変量間の単相関係数を求め、単相関係数が１または－１に近いものがあれば多重共線性がある。

(2)多重共線性が認められるときには、偏回帰係数を求められないとか、偏回帰係数の符号と、説明変量と目的変量の単相関係数の符号が一致しない等の現象を起こす。

多重共線性の例(1)

上記表から、説明変量間の相関行列を作成すると

ｘ₁－ｘ₂の相関係数が１であり、偏回帰係数を求めることができない。

　ｘ₂＝ｘ₁×0.8 となっており、ｘ2変量は目的変量ｙに何の寄与もしていないので不用な変量であるといえる。ｘ₁変量を使うとき、ｘ₂変量を落として回帰式を求めなければならない。

１．９　良い重回帰式を作成する

　重回帰式は、いくつかの説明変量から目的変量の値を予測するが、説明変量をむやみに多くしても無駄なことが多い。理想的な重回帰式は、なるべく少ない説明変量でなおかつ誤差の小さな目的変量を得られるような式である。このためには説明変量を調べ、回帰式に必要な変量であるかを検討する必要がある。

（１）説明変量の選択基準

(1)目的変量に与える影響の大きい説明変量を選ぶ。各説明変量と目的変量間の単相関係数を求めて、各説明変量の目的変数に与える影響の大きさを調べる。

(2)説明変量間で高い相関が認められるときには、どちらか一方の変量を落として重回帰式を作成する。一般に説明変量間の単相関係数が０．９以上ある時にはどちらか一方の説明変量を落とす。特に説明変量間で単相関係数≒１の時には偏回帰係数を求めることができない。

(3)偏回帰係数≒０となるような説明変量は、役にたたない変量であるから落とすようにす。

（２）重回帰式の良さを評価する方法

　いくつかの説明変量を使用して何種類かの重回帰式を作成したとき、それらの重回帰式の中で、どの重回帰式が一番よい回帰式であるかを判断する基準としてＡＩＣ（赤池の情報量基準）がある。ＡＩＣは

で与えられる。

　但しｎ：標本数　ｐ：説明変量の個数　Ｓ_E（残差平方和）：∑（ｙ_i－Ｙ_i）²

　ＡＩＣの値は小さいほど当てはまりがよいとされているが、絶対的基準を与えるものではないので、どの値以下が良いとはいえない。あくまでの、いくつかの説明変量を組み合わせて作成した回帰式のそれぞれのＡＩＣ値を求め、それらの回帰式の中でＡＩＣ値が最も小さいものが一番良い回帰式であると判断する。

１．１０　変数選択法

　説明変量がいくつかある時、どの変量を使用すれば最良の重回帰式を得ることができるかを解決するために、変数選択法がある。

（１）総あたり法

　説明変量がＰ個あるとき、このＰ個の全ての組合せ（２P－１通り）について回帰式を作成し、回帰式の検討する方法。この方法では説明変量の個数が増えると作成する回帰式が膨大になり、実用的ではない。

（２）逐次選択法（ステップワイズ法）

①変数増加法…変数０から出発し、順次変数を増やしていく方法

②変数減少法…全説明変量使用した回帰式から出発し、順次変数を減少させていく方法

　③変数増減法…変数０から出発し、順次変数を増やしていくが、一度取り込んだ変数でもある基準を満たさなくなったときには落としてしまう方法

④変数減増法…全説明変量使用した回帰式から出発し、順次変数を減少させていくが、一度落とした変量についてもある基準を満たすときには再度採用する方法

［偏回帰係数のＦ値を使用したステップワイズ法］

（１）変数増加法

　①変数０から出発する。

　②目的変量ｙと各説明変量ｘ₁…ｘ_pとの単相関係数を求め、この中で最も相関係数の大きい変数を取り込む。

または、単相関係数を求める代わりに、ｙ－ｘ₁　…　ｙ－ｘ_pと２変量ずつの回帰式を作成し、それぞれの偏回帰係数をみて、そのＦ値が最も大きく、なおかつＦ値が２以上（自由度に関係なく）の変数を取り込む。なお、全偏回帰係数のＦ値が２以下の時には取り込むべき変数はないとする。

いま、ｘ₁を採用するとするとＹ＝ｂ₁･ｘ₁＋ｂ₀の式ができる。

③次に②で採用した変量以外の変量を１つ追加して回帰式を作成する。

　それぞれの回帰式について、その偏回帰係数のＦ値を求め、最大のＦ値を与えかつ自由度に関係なくその値が２以上のものがあれば、２番目の変量として採用する。

以下全変量についてこれを繰り返し実行する。

寄与率Ｒ² をそれぞれ求めて寄与率が最も大きいものを採用してもよいが、寄与率は、使用する変量の個数が増えると単純に増加する傾向があるので、寄与率が余り向上しな　　　　いときには採用しない方がよい。

④変数増加の打ち切り

　全ての変数について実行が終了し、もう取り込むべき変量がなくなったとき。

　または、最初に決めた打ち切りの決定値（Ｒ²）以下になったとき。

（２）変数減少法

①最初全ての説明変量を使用した回帰式を作成し、それぞれの偏回帰係数のＦ値を求め、最小のＦ値でなおかつ２．０以下のものがあれば、その変量を削除する。

②①から１つ変量を減らした回帰式を作成し、それぞれの偏回帰式のＦ値を求め、最小のＦ値でなおかつ２．０以下のものがあれば、その変量を削除する。これを繰り返す。

　または、寄与率Ｒ²を見ていき、その変量を削除しても余り寄与率の減少がみられないときには、その変量はなくてもよい変量なので削除する。

③変数減少の打ち切り

　全ての変量について実行が終了し、もう削除すべき変量がなくなったとき。

　　または、あらかじめ決めた決定値（Ｒ²）に達したとき。

（３）変数増減法

　　　変数増加法と似ているが、一度取り込んだ変数についても、その偏回帰係数のＦ値が２．０以下になるときには、回帰式から削除する。

（４）変数減増法

変数減少法に似ているが、一度削除した変数についても、再度取り込んでその偏回帰係数を調べその値が２．０以上になるときには再度取り込むようにする。

以上偏回帰係数を調べて変量の増加減少を行ってきたが、ＡＩＣ量を見ながら変量の増減をしていく方法がある。

偏回帰係数のＦ値と同様に、ＡＩＣ量を調べながら、①変数増加法　②変数減少法　③変数増減法　④変数減増法　がある。

　ＡＩＣ量を見ながらこれらの方法を行うときには、採否の基準とする偏回帰係数のＦ値は、

　　自由度に関係なく

ｎ：標本数　ｐ：説明変量の個数

１．１１　残差εについて

　回帰式において、残差εをみると

　残差εについての仮定は

　　　①εi･εj はお互いに独立で、正規分布Ｎ（０，σ²）に従う。

　　　②εの期待値は０である。

　③εの分散は一定である。

　　以上の仮定下で線形重回帰モデルは

　　　　ｙ_i＝β₁･ｘ_1i＋β₂･ｘ_2i＋…＋β_p･ｘ_pi＋β₀＋ε_i（i＝1,2 …ｎ）とするとき

　残差εの分布は、ランダムでありかつ正規分布にしたがう。

いま、データが系時的に変化するとき、残差εは系時的に変化する。この残差の系時的変化を見ることにより、残差εのランダム性を調べることができる。

　残差εのランダム性を調べるには、下の２つの方法がある。

　　①残差の系時的プロット図を作成し、その図から読み取る方法

　　②ダービン･ワトソン比を求め調べる方法

1.11.1　残差プロットを見る方法

　　データが系時的に変化しているとき、その回帰式を求め、回帰式からのずれであるεを時系列に表示する。

　残差をみて、全体的傾向・＋－の出現状況・連の長さと数等を調べ、ランダム性を検討する。

残差εのプロット図

連…＋データ・－データが連続して現れるとき、それを連という。

　上のサンプルでの出現状況は、＋側：－側＝９：９＝１：１となっている。

（１）残差εの分布が＋側の分布と－側の分布が同様に分布しているかどうか調べるには、符号検定を行う。

残差ε_i＝ｙ_i－Ｙ_iである。

「符号検定の実施」

残差εを求める。この時ε＝０のものがｎ₀個あれば、標本数をｎ－ｎ₀個とする。

検定統計量Ｓは＋の符号の数とする。

(1)標本数が少ないとき（ｎ≦３０）…符号検定表を使用する

　①仮説をたてる

　　仮　　説　Ｈ₀：μ₁＝μ₂ （２つの分布は等しい）

　　対立仮説　Ｈ₁：μ₁≠μ₂ （２つの分布は等しくない）

②検定統計量Ｓは

　　Ｓ＝残差の符号が＋の数

　③有為水準＝αで両側検定を行う（符号検定表より上限・下限を求める）

Ｓ≦ｒ_α または　Ｓ≧（ｎ－ｒ_α）ならば仮説Ｈ₀を棄却する。

(2)標本数が多いとき（ｎ＞３０）…標準正規分布表を使用する

（２）残差εの分布が、ランダムに分布しているかの検定には、「連の数」による検定がある。

残差の「ある符号」の数をｍとし、「反対の符号の数」をｎとする。ｍ＋ｎ＝Ｎとする。

この時「＋の連」、「－の連」を合わせた全体の「連の数」をＮ_Rとする。

　　　　　　Ｎ_R＝「＋の連の個数」＋「－の連の個数」

(1)標本数が少ないとき（ｍ＜２０，ｎ＜２０）…連の数の検定表使用する。

①仮説をたてる

　仮　　説　Ｈ₀：残差εの分布はランダムである

　対立仮説　Ｈ₁：残差εの分布はランダムでない

②検定統計量Ｎ_Rは全体の連の数である

③有為水準αで検定を行う（連の数の検定表から上限・下限を求める）

　つまり残差εの分布は、ランダムでないとする。

(2)標本数が多いとき（ｍ≧２０，ｎ≧２０）…標準正規分布表を使用する。

　として、検定を行う。なおＺ（α）は、標準正規分布表の値である。

1.11.2　ダービン・ワトソン比を用いる方法

　　残差の連なりがランダムであるかどうかを検定するには、ダービン・ワトソン比を用いる方法がある。ダービン・ワトソン比をｄとすると

ダービン・ワトソン比とランダム性との関係は

①残差が全くランダムである時…ｄ≒２

　②残差に正の自己相関がある時…ｄ→０に近づく

　③残差に負の自己相関がある時…ｄ→４に近づく

という性質を持っている。

自己相関とは、系時的残差変化間の相関をいう

残差εの自己相関を検定する

（１）正の自己相関があるか　

(1)仮説

帰無仮説Ｈ₀：ρ＝０　（自己相関はない）

　　対立仮説　Ｈ₁：ρ＞０（正の自己相関がある）

(2)検定統計量はｄ比である。

(3)有為水準αで検定を行う

　　　　ｄ＜ｄ_Lならば、仮説Ｈ0：ρ＝０を棄却する。ρ＞０を採択。

　　　　　　ｄ＞ｄ_Uならば、仮説Ｈ1：ρ＝０を採択する。

ｄ_U＜ｄ＜ｄ_Lならば、ρ＝０　ρ＞０のどちらともいえない。

（２）負の自己相関があるか

　　負の自己相関を検定するときには、ｄの代わりに４－ｄとして検定を行う。

　(1)仮説

帰無仮説Ｈ₀：ρ＝０　（自己相関はない）

　　　対立仮説　Ｈ₁：ρ＜０（負の自己相関がある）

(2)検定統計量はｄ比である。

　 (3)有為水準αで検定を行う

　　ｄ＞４－ｄ_Lならば、仮説Ｈ0：ρ＝０を棄却する。ρ＜０を採択。

　　ｄ＜４－ｄ_Uならば、仮説Ｈ1：ρ＝０を採択する。

４－ｄ_U＜ｄ＜４－ｄ_Lならば、ρ＝０　ρ＞０のどちらともいえない。

（３）正・負どちらか不明の時

(1)仮説

帰無仮説Ｈ₀：ρ＝０　（自己相関はない）

　　対立仮説　Ｈ₁：ρ≠０（自己相関はない）

(2)検定統計量はｄ比である。

　 (3)有為水準αで検定を行う

　　ｄ≦ｄ_Lまたはｄ＞４－ｄ_Lなら仮説ρ＝０を棄却する。（ρ≠０を採択）

ｄ_U＜ｄ＜４－ｄ_Uなら仮説ρ＝０を採択する。

その他は不明