1.回帰分析
何名かの体重と身長の値が分かっているとき、体重の値は分かっているが、身長が不明の人がいるとする。このようなとき、すでに得ているデータから身長と体重の関係を調べ、その相関を求め、身長不明の人の身長を予測する。この様な分析方法を回帰分析という。
求めるものは身長であり、これを目的変量と呼ぶ。身長の値を予測するのは、体重からであるので、この体重のことを説明変量と呼ぶ。説明変量が1つの時を単回帰分析といい、説明変量が2つ以上の時を多重回帰分析という。
回帰分析では、説明変量は量的データであり、また目的変量も量的データである。
なお、回帰式で予測をするときには、説明変量の範囲内で予測することが望ましい。説明変量の範囲を大きく越えたところで予測すると誤差が大きくなり実用に適さなくなる。
1.1 単回帰分析
正規母集団から抽出して得られた標本データx・yが下表のようにあり、x・y間にある関係があるものとする。
標 本 |
説明変量x |
目的変量y |
1 2 … n |
x1 x2 … xn |
y1 y2 … yn |
以上の標本データをXYグラフで描くいて、下のようになったとする
標本データx・yの間には右上がりの関係がありそうなので、xとyの関係を表す適当な直線を考える。 目的変量yと説明変量xとの間に相関があるとき、
Y=b1・x+b0 なる直線を1本考え、実データとこの直線上の値との差をεとする。
Y=b1・x+b0 なる直線は全ての標本データについて、その残差が最小になるようにひく必要がある。この直線から各標本データとのズレ具合いを計るために、各残差の平方和をとり、この平方和を最小にするようにする。このような方法を最小2乗法という。
標本データは、直線Y=b1・x+b0 から残差(ε)分ずれているので、標本データは
y=b1・x+b0 +εと表す。
このことから線形回帰モデルを
yi=β1・xi+β0+εi (i=1,2…n)とすると
残差εについて、
@εiとεjはお互いに独立であり、正規分布 N(0,σ2)に従う。
Aεiの平均値(期待値)は0である。
Bεiの分散は一定である。
このような仮定下で単回帰式を Y=b1・x+b0 とする。
いま、残差εに注目すると εi=yi−Yi εi=yi−b1・xi−b0 である。
この残差を全ての標本データについて合計し、その合計値を最小にするようなb0・b1 を求め、この単回帰式を得る。
買テi2 =煤iyi−b1・xi−b0)2 であるから
f=煤iyi−b1・xi−b0)2とすると
この式をb0,b1で偏微分して、0とおくことにより、正規方程式を得て、式fを最小 にするb0・b1を得ることができる。
1.2 重回帰分析
それでは次に説明変量がx1・x2の2変量になったときの回帰式を求める。
標 本 |
説明変量x1 |
説明変量x2 |
目的変量y |
1 2 … n |
x11 x12 … x1n |
x21 x22 … x2n |
y1 y2 … yn |
説明変量が2変量あるので、単純に説明2変量(x1とx2)の平均値をとって、その値と目的変量(y)との相関を求めても、平均値をとる段階で失う情報量が大きいので正しい回帰式を得ることができない。
このように説明変量が2つ以上ある時の回帰分析を重回帰分析という。
1.2.1 重回帰式を求める。
2説明変量が次のようになっているときの重回帰直線を求める。
説明変量(x1,x2)と目的変量(y)との間に相関関係があるとき
Y=b1・x1+b2・x2+b0
なる平面を考え、実際の標本データからこのこの平面上への残差をεとすると
説明変量が2つある時の重回帰式は
yi=b1・x1i+b2・x2i+b0+εi と表される。
残差εに注目すると εi=yi−Yi
εi=yi−(b1・x1i+b2・x2i+b0)であるから
この残差平方和を求め、残差平方和が最小にするようなb0・b1・b2 を求めると、重回帰式を得ることができる。
一般に説明変量がp個ある時の線形重回帰モデルは
yi=β1・x1i+β2・x2i+…+βp・xpi+β0+εi (i=1,2 …n)
と表される。この時単回帰分析と同様に
残差εについて、
@εiとεjはお互いに独立であり、正規分布 N(0,σ2)に従う。
Aεiの平均値(期待値)は0である。
Bεiの分散は一定である。
との仮定下で重回帰予測式を
Yi=b1・x1i+b2・x2i+…+bp・xpi+b0 とする。
b1・b2…bpを偏回帰係数といい、 β1・β2…βp を母偏回帰係数という。
[残差平方和煤iεi)2 を最小にするようなb0・b1・b2 を求める。]
煤iεi)2 =煤oyi−(b1・x1i+b2・x2i+b0)}2 を最小にするb0・b1・b2 を
求める。
f=煤iyi−b1・x1i−b2・x2i−b0)2 とし、この式をb0・b1・b2で偏微分する。
1.2.2 偏差平方和・積和から重回帰式を求める
(1)説明変量が2個の時
説明変量x1・x2 の偏差平方和それぞれS11・S22、偏差積和をS12とすると
求める重回帰式を、Yi=b1・x1i+b2・x2i+…+bp・xpi+b0 とする、この回帰式の係数b0・
1.3 標準偏回帰係数
説明変量がどれくらい目的変量に影響を与えているか(寄与しているか)を見るには、求めた重回帰式の偏回帰係数を見ればよい。通常、偏回帰係数が大きいほど目的変量に与える影響が大きいので多く寄与しているといえる。しかし、説明変量間で単位が異なるときには、単位の影響を受けるので、単純に偏回帰係数の大小比較して決めることはできない。単位の影響を除くには、標本データを標準化する。データを標準化することにより、平均=0・分散=1となり単位の影響を受けなくなるので、標準化したデータから偏回帰 係数を求めるようにする。このように標準化したデータから得られた偏回帰係数を、標準 偏回帰係数という。
標準偏回帰係数の大きいほど、目的変量に与える影響が大きく、寄与の大きい変量である といえる。
1.4 相関係数と決定係数
1.4.1 単回帰式における相関係数と決定係数
実測値yは、単回帰直線の付近にばらついて散在している。このばらつきの小さいほど単回 帰式のあてはまりがよい(精度が高い)直線といえる。また説明変量xの目的変量に与える影響が大きいといえる。つまり決定力が大きいといえる。
(1)重相関係数と決定係数
[重相関係数の検定]
標本から得られた重相関係数について、その母重相関係数(ρ)が無相関かどうかの検定を 行う。標本から得られた重相関係数をRとする時、その母相関係数(ρ)についてρ=0の仮説につき、検定統計量をFとすると
検定をおこなう
(1)仮説をたてる
仮 説 H0:ρ=0 (母重相関係数は無相関である)
対立仮説 H1:ρ≠0 (母重相関係数は無相関ではない)
(2)検定統計量Fは自由度p,n−p−1のF分布に従う。
(3)有為水準αで検定を実行する。
F≧Fp,n−p−1(α)であれば、仮説を棄却する。つまり、母重相関係数は有効であり、実測値と予測値の間には相関があるといえる。
重相関係数は、実測値yと予測値Yとの相関係数である。これに対して単純に2変量間の相関係数を単相関係数という。多変量データにおいて、2変量間の相関係数が本当に正しい相関を示すとは限らない。多変量においては2変量間の相関係数を求めても、その2変量以外の変量がこの2変量に影響を与えるからである。よって、多変量間における2変量の正しい相関係数を求めるには、相関係数を求める2変量以外の変量の影響を取り除いて(一定にして)相関係数を求める必要がある。このようにして求めた相関係数を偏相関係数という。
(2)偏相関係数
多変量データにおいて、任意の2変量間の単純な相関係数を単相関係数というが、これは相関をとる2変量以外の変量が、その2変量に影響を与えている相関係数である。これに対し、相関を求める2変量以外の他の変量の影響を取り除いた2変量間の相関係数を偏相関係数という。
いまP変量の任意の2変量間の単相関係数をrijとする。
|
x1 x2 … xp |
x1 x2 … xp |
r11 r21
… rp1 r21 r22
… rp2 … rp1 r2p
… rpp |
(3)自由度調整済み決定係数
決定係数や重相関係数は、説明変量の数を増やすと単純に増加する傾向がある。
そこで、単純に説明変量の数を増やしても、決定係数が単純に増加しないように調整した 自由度調整済み決定係数という。通常標本数がn個、説明変量がn−1個のものは分析することができない。必ず説明変量がn−2個以下にする必要がある。
自由度調整済み決定係数をR’2 とすると
1.5 回帰式の信頼性
回帰式を使用して説明変量から目的変量の値を予測する時、その予測値がどのくらい信頼性 があるのかを検定する方法に、分散分析を用いる方法と相関係数を用いる方法がある。
1.5.1 分散分析を用いる場合
(1)単回帰のとき
説明変量xと実測値yと単回帰式から求めた予測値Yが下表のようである時
標 本 |
説明変量x |
実測値y |
予測値Y |
1 2 … n |
x1 x2 … xn |
y1 y2 … yn |
Y1 Y2 … Yn |
予測値Yiは、Y=b1・x+b0の回帰式から求めた値
以上のデータをもとに、分散分析表を作成し回帰式の信頼性を検定する。
全体の変動(ST)を、回帰による変動(SR)と残差による変動(SE)とに分け、回帰による変動が残差による変動よりも小さいようであれば、回帰直線で求めた予測値は残差による影響の方が大きいので予測には役立たないと考える。
実測値の変動(ST)=回帰による変動(SR)+残差による変動(SE)
残差が小さいほど「実測値の変動」≒「回帰による変動」となり、よい予測値を得られる。
(1)変動を求める
右片側検定を行い、VRがVEより大きいかどうか検定する。VR>VEであれば、回帰による変動が残差による変動よりも全変動に与える影響が大きいので、回帰直線は予測に役立つといえる。
(5)検定を行う
(1)仮説をたてる
仮 説
H0:回帰直線は予測に役立たない(VR≒VE)
対立仮説
H1:回帰直線は予測に役立つ(VR>VE)
(2)検定統計量Fを求める
(3)有為水準αで右片側検定を行う
F≧F1,n-2 (α)であれば、仮説H0を棄却し、対立仮説H1:回帰直線は予測に役立つを採択する。つまり、この回帰直線は予測に役立つとする。
以上をまとめて分散分析表を作成する。
分散比Fは自由度1,n−2のF分布に従う
(2)重回帰のとき
説明変量がP個ある時の多変量データが下のようになっているとする
予測値はY=b1・x1i+b2・x2i+…+bp・xpi+b0 から得た値
n:標本数 p:説明変量の個数
単回帰同様に、全体の変動を回帰による変動と残差による変動とに分け、分散分析表を作 成し重回帰式の信頼性を検定する。
分散比Fは、自由度p,n−p−1のF分布に従うので、これを利用して単回帰の場合と同様に回帰式の信頼性を検定することができる。
分散分析では、回帰式の信頼性を検定することはできるが、どれ位信頼できるかについて は不明である。
1.5.2 相関係数を用いる場合
相関係数Rの2乗は決定係数と呼ばれているが、この決定係数を利用して回帰式の信頼性 を見る。