6. EXCELによる主成分分析例題
新聞10紙について、記事の内容をニュース・ビジネス・スポーツについてその充実度を10点評価で調査した。その結果が下の表である。
NO |
ニュース |
ビジネス |
スポーツ |
X1 |
X2 |
X3 |
|
1 2 3 4 5 6 7 8 9 10 |
8 2 8 3 7 4 3 6 5 6 |
9 5 5 5 4 3 6 8 4 7 |
4 7 6 4 9 4 8 2 5 6 |
大変充実している…10 充実していない…0
以上の10紙について、その紙面の充実度を評価するために主成分分析を実施する。
分析に先立って上のデータを入力しておく。
6.1 相関係数行列を用いて分析を実施する。
6.1 主成分を求める。
6.1.1 固有値・主成分負荷量を求める
相関係数行列を求める
2変量間の相関係数を求める関数は、=CORREL(範囲1、範囲2)である。
この関数を使用して変量X1−X2、X1−X3、X2−X3間の相関係数を求める。
相関係数行列は、
固有値:λ 固有値λに属する固有ベクトル:a1・a2・a3 とする。
これより、3つの固有値 λ1=1.571
λ2=0.903 λ3=0.527 が求められる。
A固有ベクトルを求める
固有値 λ1=1.571の時
これより固有ベクトルは a1=0.531 a2=0.673 a3=−0.514
固有値 λ2=0.903 のとき
固有ベクトルは a1=0.689 a2=0.0095
a3=0.724
主成分負荷量は 0.655 0.009 0.688
固有値 λ3=0.527 のとき
固有ベクトルは a1=−0.492 a2=0.738
a3=0.459
主成分負荷量は −0.357
0.536 0.333
以上をまとめると
固有値 |
第1主成分 1.571 |
第2主成分 0.903 |
第3主成分 0.527 |
固有ベクトル |
0.531 0.673 -0.514 |
0.689 0.0095 0.724 |
−0.492 0.738 0.459 |
主成分負荷量 |
0.665 0.844 -0.644 |
0.655 0.009 0.688 |
−0.357 0.536 0.333 |
6.2 べき乗法から固有値・固有ベクトルを求める。
相関係数行列から、次式を満足するような固有値ならびに固有ベクトルを求めることは、大変である。そこで、べき乗法を用いて固有値と固有ベクトルを求める。
べき乗法とは、相関係数行列をAとするとき、成分がすべて1のX行列を考える。
この求められた行列で最大の成分を1に変換する
続けて、A・X1を計算する。
この求められた行列で最大の成分を1に変換する
続けて、同様にしてA・X2を計算する。
この作業を繰り返し実施し、求められた行列の成分で、最大の値のものが1つ前に比べ10-5程度までの差となったら、終了する。この時最大の成分が1番目の固有値となる、またその時のX成分を標準化すると、1番目の固有値に属する固有ベクトルが求められる。
求められた行列で最大の成分の値は、上の表では分からないが、実施計算していくと、1.57056−1.157055=0.00001 となり、A・X13で収束しそうである。
この時の最大の成分は1.57056であり、これが1番目の固有値である。
2番目以降の固有値を求めるには、A1=A−λ1a1a1’
として再度最初からべき乗法を繰り返す。
A1=A−λ1a1a1’により新しいA1を求める。
この新しいA1を使用して再度べき乗法を実施し2番目の固有値・固有ベクトルを求める。
3番目の固有値・固有ベクトルも同様にして求める。
6.3 主成分負荷量のプロットを見る。
横軸に第1主成分、縦軸に第2主成分をとり、主成分負荷量をグラフに描いてみる。
主成分負荷量は、主成分と各変量の間の相関係数に一致し、主成分負荷量が1に近いほどその変量と主成分の関係が深いことを示しているので、各変量の主成分負荷量をみていく。
第1主成分の主成分負荷量は、ニュース:0.665
ビジネス:0.844 と同程度に大きく、スポーツは負(−)となっている。このことから、第1主成分はニュースとビジネス関係を中心に主成分負荷量が大きく、スポーツ関係の負荷量は低いので、専門紙志向度を計る尺度と考え専門誌志向度と名付ける。第2主成分の主成分負荷量は、ニュース:0.655 スポーツ:0.688 と同程度に大きいが、ビジネス:0.009 となっている。このことから第2主成分は大衆紙志向度を計る尺度と考え大衆紙志向度と名付ける。
また、第1主成分・第2主成分・第3主成分のそれぞれの固有値・累積寄与率(%)をみると、
固有値が1以上または累積寄与率が60%以上のものを採用するとすると、第2主成分まで採用するようにする。
6.4 主成分得点を求める。
6.4.1 第1主成分得点を求める。
この式を用いて、第1主成分得点を求める。
X1〜X3の説明変量に標準化した値を用いて主成分得点を求める。この時主成分得点の有値が一致していることが分かる。求めた主成分得点をさらに標準化した値を求める。
6.4.2 第2主成分得点を求める。
この式を用いて、第2主成分得点を求める。
NO |
主成分得点 |
標準化 |
1 2 3 4 5 6 7 8 9 10 |
0.424 −0.545 1.123 −1.286 1.859 −0.959 0.158 1.957 −0.256 0.458 |
0.447 −0.573 1.182 −1.354 −0.976 −1.010 0.167 −1.028 −0.269 0.482 |
平均 |
0.000 |
0.000 |
分散 |
0.903 |
1.000 |
STD |
0.950 |
1.000 |
第3主成分についても、第3主成分の固有ベクトルを用いて、同様に計算して求める。
第1主成分得点・第2主成分得点・第3主成分得点のそれぞれお互いの相関係数を求めると、いずれも0となり無相関であることがわかる。お互いに独立であることがわかる。
第1主成分の固有値:1.571 第2主成分の固有値:0.903 第3主成分の固有値:0.527 これは、第1主成分得点の分散、第2主成分得点の分散、第3主成分得点の分散に一致していることがわかる。分散の大きいデータ群ほど説明力が大きいのでより重要なデータである。固有値の大きいほど重要なデータであるといえる。
第1主成分得点から、専門誌志向度が一番高いのはNO1紙であり次にNO8紙であり、一番小さいのはNO2紙であることがわかる。次に第2主成分得点から大衆紙志向度が一番大きいのはNO5紙であり、一番小さいのはNO4紙であることがわかる。
6.5 分散・共分散行列を用いる方法
6.5.1 主成分を求める。
(1)分散・共分散を求める
分散を求める関数は、=VARPA(範囲)である。また共分散を求める関数は、=COVAR(範囲1、範囲2)である。この2つの関数を使用して分散・共分散を求める。
(2)固有値・主成分負荷量を求める
分散・共分散行列は
これより、3つの固有値 λ1=5.8731
λ2=3.7023 λ3=1.8746 が求められる。
(3)固有ベクトルを求める
固有値 λ1 = 5.8731の時
これより固有ベクトルは a1=0.598 a2=0.582 a3=−0.548
以下同様にして
固有値λ2=3.7023のときの固有ベクトル a1= 0.683 a2=−0.0148 a3=0.7305
固有値λ3=1.8746のときの固有ベクトル a1=−0.419 a2= 0.812
a3=0.408
以上をまとめると
固有値 |
第1主成分 5.8731 |
第2主成分 3.7023 |
第3主成分 1.8746 |
固有ベクトル |
0.5986 0.5843 −0.548 |
0.683 −0.0148
0.7303 |
−0.4185 0.8114 0.4079 |
6.5.2 主成分得点を求める。
(1) 第1主成分得点を求める式は、
この式を用いて、第1主成分得点を求める。
求められた主成分得点をさらに標準化し、平均:0 分散:1 とする。
(2)第2主成分得点を求める。
この式を用いて、第2主成分得点を求る。
第3主成分を求める式は
この式を用いて、第3主成分得点を求める。
第1主成分得点から、専門紙志向度が一番高いのはNO1紙で次にNO8紙であり、一番小さいのはNO2紙であることがわかる。次に第2主成分得点から大衆紙志向度が一番大きいのは、NO5紙であり、一番小さいのはNO4紙であることがわかる。
主成分得点を求めるのに、相関係数行列から出発し求める方法と、分散共分散行列から出発して求める方法と2通り実行したが、相関係数行列から出発して求めた主成分得点と分散共分散行列から出発して求めた主成分得点の順位は必ずしも一致しない。今回の例では、3変量の単位が同じであるので、通常分散共分散行列から主成分得点を求める。