1.6 標準誤差(SE:Standard
Error)
標準誤差とは、推定値の標準偏差(SD)をいう。
いま、標本n1個から得られた回帰式を Y1=b11・x11+b21・x21+…+bp1・xp1
次の標本n2個から得られた回帰式を Y2=b12・x12+b22・x22+…+bp2・xp2
以下同様にしてこれを何回か繰り返すと係数b1 は正規分布に従うことが分かっている。同様にb2…bpについてもそれぞれ正規分布に従う。この時の標準偏差を標準誤差という。
1.6.1 標準誤差を求める
(1)単回帰の時
単回帰式をYi=b1・xi+b0 とすると
残差はεi=yi−Yi であるから、残差平方和(SE)は買テi2=煤iyi−Yi)2
説明変量xの偏差平方和をSXXとすると、SXX=煤ixi−x)2
残差の不偏分散VEは、VE=SE/(n−2)
重回帰式をYi=b1・x1i+b2・x2i+…+bp・xpi+b0 とすると
残差はεi=yi−Yiで、残差平方和(SE)は
買テi2=煤iyi−Yi )2
自由度は、n−p−1
不偏分散は VE=SE/(n−p−1)
1.7 偏回帰係数の検定
標本から得られた回帰式の信頼性については、分散分析を行うことにより検定することができる。回帰式が予測に役立つとしたとき、次に偏回帰係数が有効かどうか検定し、有効でない偏回帰係数は予測結果に影響を与えていないので、使用しなくてもよい係数ということになる。
いま、重回帰モデルを、yi=β1・x1i+β2・x2i+…+βp・xpi+β0+εi (i=1,2 …n)とするとき
残差εについて、
@εiとεjはお互いに独立であり、正規分布 N(0,σ2)に従う。
Aεiの平均値(期待値)は0である。
Bεiの分散は一定である。
との仮定下で重回帰予測式を
Yi=b1・x1i+b2・x2i+…+bp・xpi+b0 とする。
母偏回帰係数βi=0を検定することにより、その偏回帰係数が予測結果に影響を与えうる係数かどうかの検定を行う。
1.7.1 単回帰における回帰係数および定数項の検定
単回帰式を Y=b1・x+b0 とする。
(1)回帰係数b1の検定
検定統計量をtとすると
この検定統計量tはn−2のt分布に従う。
(1)仮説をたてる
帰無仮説 H0:β1=0 (説明変量xの母回帰係数は0である)
対立仮説 H1:β1≠0 (説明変量xの母回帰係数は0でない)
(2)検定統計量tを求める
(2)定数項b0の検定
検定統計量tは、自由度n−2のt分布に従う
(1)仮説をたてる
帰無仮説
H0:β0=0
対立仮説
H1:β0≠0
(2)検定統計量tは、自由度n−2のt分布に従う
(3)有為水準αで両側検定を行う
1.7.2 重回帰における偏回帰係数および定数項の検定
重回帰式をYi=b1・x1i+b2・x2i+…+bp・xpi+b0 とする
(T)偏回帰係数biの検定
検定統計量をtとする
ただし、SE:偏回帰係数biの標準誤差
(1)仮説をたてる
帰無仮説
H0:βi=0 (説明変量xiは予測に役立たない)
対立仮説
H1:βi≠0 (説明変量xiは予測に役立つ)
(2)検定統計量tは自由度n−p−1のt分布に従う
(3)有為水準αで両側検定を行う
(1)仮説をたてる
帰無仮説 H0:β0=0 (定数項は予測に役立たない)
対立仮説 H1:β0≠0 (定数項は予測に役立つ)
(2)検定統計量tは自由度n−p−1のt分布に従う
(3)有為水準αで両側検定を行う
1.8 多重共線性について
説明変量間においてお互いに高い相関がある時、偏回帰係数を求めることができないという現象を引き起こす。これを多重共線性という。説明変量間でお互いに高い相関があるということは、どちらも同じことを説明している変数なのでどちらか一方の変量があればよい。重回帰式を求めるにあたり、多重共線性があるときにはどちらかの説明変量を落として求める必要がある。
多重共線性の有無については、
(1)説明変量間の単相関係数を求め、単相関係数が1または−1に近いものがあれば多重 共線性がある。
(2)多重共線性が認められるときには、偏回帰係数を求められないとか、偏回帰係数の符号と、説明変量と目的変量の単相関係数の符号が一致しない等の現象を起こす。
多重共線性の例(1)
上記表から、説明変量間の相関行列を作成すると
x1−x2の相関係数が1であり、偏回帰係数を求めることができない。
x2=x1×0.8 となっており、x2変量は目的変量yに何の寄与もしていないので不用な変量であるといえる。x1変量を使うとき、x2変量を落として回帰式を求めなければならない。
1.9 良い重回帰式を作成する
重回帰式は、いくつかの説明変量から目的変量の値を予測するが、説明変量をむやみに多くしても無駄なことが多い。理想的な重回帰式は、なるべく少ない説明変量でなおかつ誤差の小さな目的変量を得られるような式である。このためには説明変量を調べ、回帰式に必要な変量であるかを検討する必要がある。
(1)説明変量の選択基準
(1)目的変量に与える影響の大きい説明変量を選ぶ。各説明変量と目的変量間の単相関係数を求めて、各説明変量の目的変数に与える影響の大きさを調べる。
(2)説明変量間で高い相関が認められるときには、どちらか一方の変量を落として重回帰式を作成する。一般に説明変量間の単相関係数が0.9以上ある時にはどちらか一方の説明変量を落とす。特に説明変量間で単相関係数≒1の時には偏回帰係数を求めることができない。
(3)偏回帰係数≒0となるような説明変量は、役にたたない変量であるから落とすようにす。
(2)重回帰式の良さを評価する方法
いくつかの説明変量を使用して何種類かの重回帰式を作成したとき、それらの重回帰式の中で、どの重回帰式が一番よい回帰式であるかを判断する基準としてAIC(赤池の情報量基準)がある。AICは
で与えられる。
但しn:標本数 p:説明変量の個数 SE(残差平方和):煤iyi−Yi)2
AICの値は小さいほど当てはまりがよいとされているが、絶対的基準を与えるものではないので、どの値以下が良いとはいえない。あくまでの、いくつかの説明変量を組み合わせて作成した回帰式のそれぞれのAIC値を求め、それらの回帰式の中でAIC値が最も小さいものが一番良い回帰式であると判断する。
1.10 変数選択法
説明変量がいくつかある時、どの変量を使用すれば最良の重回帰式を得ることができるかを解決するために、変数選択法がある。
(1)総あたり法
説明変量がP個あるとき、このP個の全ての組合せ(2P−1通り)について回帰式を作成し、回帰式の検討する方法。この方法では説明変量の個数が増えると作成する回帰式が膨大になり、実用的ではない。
(2)逐次選択法(ステップワイズ法)
@変数増加法…変数0から出発し、順次変数を増やしていく方法
A変数減少法…全説明変量使用した回帰式から出発し、順次変数を減少させていく方法
B変数増減法…変数0から出発し、順次変数を増やしていくが、一度取り込んだ変数でもある基準を満たさなくなったときには落としてしまう方法
C変数減増法…全説明変量使用した回帰式から出発し、順次変数を減少させていくが、一度落とした変量についてもある基準を満たすときには再度採用する方法
[偏回帰係数のF値を使用したステップワイズ法]
(1)変数増加法
@変数0から出発する。
A目的変量yと各説明変量x1…xpとの単相関係数を求め、この中で最も相関係数の大きい変数を取り込む。
または、単相関係数を求める代わりに、y−x1 … y−xpと2変量ずつの回帰式を作成し、それぞれの偏回帰係数をみて、そのF値が最も大きく、なおかつF値が2以上(自由度に関係なく)の変数を取り込む。なお、全偏回帰係数のF値が2以下の時には取り込むべき変数はないとする。
いま、x1を採用するとするとY=b1・x1+b0の式ができる。
B次にAで採用した変量以外の変量を1つ追加して回帰式を作成する。
それぞれの回帰式について、その偏回帰係数のF値を求め、最大のF値を与えかつ自由度に関係なくその値が2以上のものがあれば、2番目の変量として採用する。
以下全変量についてこれを繰り返し実行する。
寄与率R2 をそれぞれ求めて寄与率が最も大きいものを採用してもよいが、寄与率は、使用する変量の個数が増えると単純に増加する傾向があるので、寄与率が余り向上しな いときには採用しない方がよい。
C変数増加の打ち切り
全ての変数について実行が終了し、もう取り込むべき変量がなくなったとき。
または、最初に決めた打ち切りの決定値(R2)以下になったとき。
(2)変数減少法
@最初全ての説明変量を使用した回帰式を作成し、それぞれの偏回帰係数のF値を求め、最小のF値でなおかつ2.0以下のものがあれば、その変量を削除する。
A@から1つ変量を減らした回帰式を作成し、それぞれの偏回帰式のF値を求め、最小のF値でなおかつ2.0以下のものがあれば、その変量を削除する。これを繰り返す。
または、寄与率R2を見ていき、その変量を削除しても余り寄与率の減少がみられないときには、その変量はなくてもよい変量なので削除する。
B変数減少の打ち切り
全ての変量について実行が終了し、もう削除すべき変量がなくなったとき。
または、あらかじめ決めた決定値(R2)に達したとき。
(3)変数増減法
変数増加法と似ているが、一度取り込んだ変数についても、その偏回帰係数のF値が2.0以下になるときには、回帰式から削除する。
(4)変数減増法
変数減少法に似ているが、一度削除した変数についても、再度取り込んでその偏回帰係数を調べその値が2.0以上になるときには再度取り込むようにする。
以上偏回帰係数を調べて変量の増加減少を行ってきたが、AIC量を見ながら変量の増減をしていく方法がある。
偏回帰係数のF値と同様に、AIC量を調べながら、@変数増加法 A変数減少法 B変数増減法 C変数減増法 がある。
AIC量を見ながらこれらの方法を行うときには、採否の基準とする偏回帰係数のF値は、
自由度に関係なく
n:標本数 p:説明変量の個数
1.11 残差εについて
回帰式において、残差εをみると
残差εについての仮定は
@εi・εj はお互いに独立で、正規分布N(0,σ2)に従う。
Aεの期待値は0である。
Bεの分散は一定である。
以上の仮定下で線形重回帰モデルは
yi=β1・x1i+β2・x2i+…+βp・xpi+β0+εi (i=1,2 …n)とするとき
残差εの分布は、ランダムでありかつ正規分布にしたがう。
いま、データが系時的に変化するとき、残差εは系時的に変化する。この残差の系時的変化を見ることにより、残差εのランダム性を調べることができる。
残差εのランダム性を調べるには、下の2つの方法がある。
@残差の系時的プロット図を作成し、その図から読み取る方法
Aダービン・ワトソン比を求め調べる方法
1.11.1 残差プロットを見る方法
データが系時的に変化しているとき、その回帰式を求め、回帰式からのずれであるεを時系列に表示する。
残差をみて、全体的傾向・+−の出現状況・連の長さと数等を調べ、ランダム性を検討する。
残差εのプロット図
連…+データ・−データが連続して現れるとき、それを連という。
上のサンプルでの出現状況は、+側:−側=9:9=1:1となっている。
(1)残差εの分布が+側の分布と−側の分布が同様に分布しているかどうか調べるには、符号検定を行う。
残差εi=yi−Yiである。
「符号検定の実施」
残差εを求める。この時ε=0のものがn0個あれば、標本数をn−n0個とする。
検定統計量Sは+の符号の数とする。
(1)標本数が少ないとき(n≦30)…符号検定表を使用する
@仮説をたてる
仮 説 H0:μ1=μ2 (2つの分布は等しい)
対立仮説 H1:μ1≠μ2 (2つの分布は等しくない)
A検定統計量Sは
S=残差の符号が+の数
B有為水準=αで両側検定を行う(符号検定表より上限・下限を求める)
S≦rα
または S≧(n−rα) ならば仮説H0を棄却する。
(2)標本数が多いとき(n>30)…標準正規分布表を使用する
(2)残差εの分布が、ランダムに分布しているかの検定には、「連の数」による検定がある。
残差の「ある符号」の数をmとし、「反対の符号の数」をnとする。m+n=Nとする。
この時「+の連」、「−の連」を合わせた全体の「連の数」をNRとする。
NR=「+の連の個数」+「−の連の個数」
(1)標本数が少ないとき(m<20,n<20)…連の数の検定表使用する。
@仮説をたてる
仮 説 H0:残差εの分布はランダムである
対立仮説 H1:残差εの分布はランダムでない
A検定統計量NRは全体の連の数である
B有為水準αで検定を行う(連の数の検定表から上限・下限を求める)
つまり残差εの分布は、ランダムでないとする。
(2)標本数が多いとき(m≧20,n≧20)…標準正規分布表を使用する。
として、検定を行う。なおZ(α)は、標準正規分布表の値である。
1.11.2 ダービン・ワトソン比を用いる方法
残差の連なりがランダムであるかどうかを検定するには、ダービン・ワトソン比を用いる方法がある。ダービン・ワトソン比をdとすると
ダービン・ワトソン比とランダム性との関係は
@残差が全くランダムである時…d≒2
A残差に正の自己相関がある時…d→0に近づく
B残差に負の自己相関がある時…d→4に近づく
という性質を持っている。
自己相関とは、系時的残差変化間の相関をいう
残差εの自己相関を検定する
(1)正の自己相関があるか
(1)仮説
帰無仮説
H0:ρ=0 (自己相関はない)
対立仮説 H1:ρ>0
(正の自己相関がある)
(2)検定統計量はd比である。
(3)有為水準αで検定を行う
d<dLならば、仮説H0:ρ=0を棄却する。ρ>0を採択。
d>dUならば、仮説H1:ρ=0を採択する。
dU<d<dLならば、ρ=0 ρ>0のどちらともいえない。
(2)負の自己相関があるか
負の自己相関を検定するときには、dの代わりに4−dとして検定を行う。
(1)仮説
帰無仮説
H0:ρ=0 (自己相関はない)
対立仮説 H1:ρ<0
(負の自己相関がある)
(2)検定統計量はd比である。
(3)有為水準αで検定を行う
d>4−dLならば、仮説H0:ρ=0を棄却する。ρ<0を採択。
d<4−dUならば、仮説H1:ρ=0を採択する。
4−dU<d<4−dLならば、ρ=0 ρ>0のどちらともいえない。
(3)正・負どちらか不明の時
(1)仮説
帰無仮説
H0:ρ=0 (自己相関はない)
対立仮説 H1:ρ≠0 (自己相関はない)
(2)検定統計量はd比である。
(3)有為水準αで検定を行う
d≦dLまたはd>4−dLなら仮説ρ=0を棄却する。(ρ≠0を採択)
dU<d<4−dUなら仮説ρ=0を採択する。
その他は不明