7. 正準相関分析
2つの量的変量x1とx2がある時、この2変量間の関係を調べたいときには、2変量の標本を幾つか集め、その相関係数を求めることにより2変量間の関係の度合を調べることができる。しかし変量がx1・x2・x3の3変量になったとき、x1・x2の組とx3の関係をみたいとか、変量がx1・x2・x3・x4の4変量で、x1・x2の組とx3・x4の組の関係をみたいとき、そのままでは相関関係をみることができない。そこで、x1・x2の組とx3の関係をみたいときには、まずx1・x2のデータを合成して、その合成した変量と
x3との相関係数を求めて、関係をみるようにする。このようにx1・x2を合成して得られる変量を正準変数と呼び、得られる相関係数を正準相関係数と呼ぶ。
7.1 正準相関係数を求める。
いま下の表のように4変量(x1・x2・x3・x4)の標本データがあるとする。
標本NO |
Z |
W |
||
x1 |
x2 |
x3 |
x4 |
|
1 2 … n |
x11 x12 … x1n |
x21 x22 … x2n |
x31 x32 … x3n |
x41 x42 … x4n |
変量x1・x2の組とx3・x4の組がどれくらい関係があるかを調べる。
x1・x2を合成して得られる変量をZ、x3・x4を合成して得られる変量をWとすると、
Z=l1・x1+l2・x2
W=m1・x3+m2・x4
この時、Z・Wを正準変量といい、l・mは正準変量の係数である。この正準変量ZとWの相関係数(正準相関係数)を最大にするような、l・mを求める必要がある。
(合成変数間の関係をできるだけ残すように集約させなければならないので)
正準相関分析では、正準変量Wが1変量の時には、重回帰分析と同じとなる。また、正準変量Wが1変量で2群以上に分かれているときには、判別分析と同じとなる。
一般に、p個の変数とq個の変数間には、p・q個の相関関係を求めることができるが、これはp個の正準相関に集約することができる。(但しp≦q)
正準相関係数を求める。
Z=l1・x1+l2・x2
W=m1・x3+m2・x4
この分散をSZZ・SWW、共分散をSZWとすると、ZとWの相関係数rZWは
合成変量ZとWのそれぞれの分散を1・平均を0と仮定する。標準化された変量x1〜x4を使用して、それぞれの分散共分散を求める。
SZZ=1、SWW=1の条件下で、このrZWを最大にするようなl・mを求める。
4変量x1・x2・x3・x4の単相関係数をみると
|
x1 x2 |
x3
x4 |
x1 x2 |
r11
r12 r21
r22 |
r13 r14 r23 r24 |
x3 x4 |
r31
r32 r41
r42 |
r33 r34 r43 r44 |
なおr11=r22=r33=r44=1
ここで
とおくと
前の表は
|
x1 x2 |
x3 x4 |
x1 x2 |
R11 |
R12 |
x3 x4 |
R21 |
R22 |
この固有方程式から、λ2を得る。第1正準相関は値の大きい方のλ値を採用する。
いま、λ1≧λ2 とすると、λ1を使用して固有ベクトルを求める。
ZとWが正の相関があるときには正の固有値(λ)を採用し、負の相関があるときには負 の固有値を採用する。
また l’・R11・l=1 であるから、これからl1とl2 を求める。
次に
これからm1とm2が求められる。
以上から正準変量ZとWは
Z=l1・x1+l2・x2
W=m1・x3+m2・x4 の式を得る。また第1正準相関係数:λ1となる。
正準相関係数の個数は、p個の変数とq個の変数があると(p≦qとする)、p個の正準相関係数を求めることができる。しかし、この全てを使用するとは限らない。そこで、母集団において有効な正準相関係数の個数を決めるための検定を行う。この検定をバートレットの検定という。
いま、p個の変数とq個の変数があり(p≦q)、p個の固有値(λ)が、
λ12≧λ22≧…≧λp2と得られたとする。
この時、「1番目からk番目までの固有値は0である。」という仮説下で、検定統計量をχ2 とすると、
検定統計量 χ2 =−{n−0.5×(p+q+3)}・loge(Λ)
は、自由度p・qのχ2 分布に漸近的に従う。
検定をおこなう。
(1)仮説をたてる
帰無仮説
H0:ρj=0 (j=1,2,…k)
(1からk番目迄の正準相関係数=0)
対立仮説
H1:ρj≠0 (j=1,2,…k)
(1からk番目迄の正準相関係数≠0)
(2)検定統計量χ2 は、自由度p・qのχ2 分布に従う
(3)有為水準αで検定する
χ2 ≧χ2p・q であれば、仮説を棄却する。つまり、第1正準相関係数から第k正準相関係 数まで、0ではない。
また、k+1番目の正準相関係数の検定については、
検定統計量 χ2k =−{n−0.5(p+q+3)}・loge(Λk)