4. EXCELによる判別分析例題
ある会社を訪問してきた他社の社員(A業界社員とB業界社員)について、その印象について、10点評価をつけたのが下の表である。A業界社員とB業界社員間で印象に違いがあるかどうか調べる。
NO |
X1 礼儀 |
X2 積極性 |
X3 強調性 |
X4 業界区分 |
1 2 3 4 5 6 7 8 |
3 8 6 8 7 4 6 7 |
8 2 7 6 3 7 3 5 |
4 6 6 4 5 3 6 8 |
A B A A B A B B |
※各点は、10(良)〜0(悪) の10点評価値。業界区分はA業界とB業界の2社
上の表をもとにして、判別分析を実施してA業界とB業界の社員間で印象が違うかどうか調 べる。A業界を「1」・B 業界を「2」と質的区分データに置き換える。文字データから質的数値データに置き換えたデータを使用して判別分析を実行する。
NO |
X1 礼儀 |
X2 積極性 |
X3 強調性 |
X4 業界区分 |
1 2 3 4 5 6 7 8 |
3 8 6 8 7 4 6 7 |
8 2 7 6 3 7 3 5 |
4 6 6 4 5 3 6 8 |
1 2 1 1 2 1 2 2 |
判別分析を実施するには、まず分析するデータを入力して。1ケースあたりの変数はX1〜X4であり、NO1〜NO8 までの8ケース分のデータがある。分析用データ入力後、判別分析を実施する。
4.1 判別分析の実施
ボックスM検定を実施し、線形判別式で区分するか、マハラノビスの距離を用いて判別するかを決定する。
ボックスM検定は、群分けした時の2群の母分散共分散が等しいかどうかの検定である。ボックスM検定の結果2群の母分散共分散が等しければ、2群は線形判別式で区分することができる。2群の母分散共分散が等しくなければマハラノビスの距離による判別分析を実施する。
4.1.1 群1(A業界)・群2(B業界)それぞれの分散・共分散を求める
不偏分散は、Σ (Xi−
)2 不偏共分散は、Σ (Xi−
)(Xj−)
プール後の分散共分散は次式より求める。
4.1.2 検定統計量をχ2 として、この検定統計量を求める。
群1(A業界社員)の分散共分散行列をS1、標本数をn1、群2(B業界社員)の分散共分散行列をS2、標本数をn2、またプールした分散共分散行列をS、変量数をpとすると
行列式の値は、=MDETERM(範囲)で求める。ただし正方行列に限る
以上関数を使用して求めた値を整理すると
loge(数値)の値は、関数を使用して=LN(値)で求める。
loge9429.875 = 9.151638
4.1.3 検定を実施
帰無仮説:H0 :2群の母分散共分散は等しい
対立仮説:H1 :2群の母分散共分散は等しくない
χ2 < χ26 (0.05) であり、棄却域に入らない。よって仮説H0:(2群の母分散共分散は等しい)を棄却できない。2群の母分散共分散行列は等しくないとはいえない。よって2群を、線計判別式で分ける。
4.2 線形判別式を求める。
4.2.1 分散共分散行列を求める。
4.2.2 群1と群2の各変量の平均値の差をとる
以上から
2.79166・a1 − a2 + 0.45833・a3
=−1.75
−a1 + 1.125・a2
+ 0.625・a3 = 3.75
0.45833・a1 + 0.625・a2 + 1.58333・a3
= −2
(ただしa1・a2・a3 は変量X1・X2・X3 の各係数)
上の計算をEXCELの計算機能を使用して求める。
プール後の分散共分散行列Sと、平均の差の行列を入力する。
分散共分散行列の逆行列を求める。
先頭の値を=MINVERSE(行列範囲)で求める。
先頭の値が求まったら、そこから逆行列を求める範囲をドラッグし、次に数式バーをクリックした後、CTRLキー+SHIFTキー+ENTERキーを押して、配列式を完成する。
求まったSの逆行列(S-1)と平均の差の行列の積を求める。
先頭の値を=MMULT(行列1範囲,行列2範囲)で求める。
行列積を求める範囲をドラッグした後、数式バーをクリックし、CTRLキー+SHIFTキー+ENTERキーを押して配列式を完成する。
これより
a1=4.605 a2=11.36 a3 =−7.08
よって線形判別式は、Y=4.605・X1+11.36・X2−7.08・X3−49.25
4.3 判別分析における2群の母平均の差の検定を実施
4.3.1 群1の中心から群2の中心までのマハラノビスの距離を求める。
群1の中心から群2の中心までのマハラノビスの距離D02は
D02 = 4.6049×(5.25−7)+11.3601×(7−3.25)−7.08042×(4.25−6.25)
= 48.7026 ≒ 48.703
4.3.2 2群の母平均に差があるかどうか検定を実施する。
帰無仮説:H0:μ1=μ2 (2群の母平均は等しい)
対立仮説:H1:μ1≠μ2 (2群の母平均は等しくない)
検定統計量をFとすると
ただし
n1:群1の標本数 n2:群2の標本数 p:変量数 D2:マハラノビスの距離
これより検定統計量Fは、
p=3 であるから n1+n2−p−1=4+4−3−1=4 自由度 3,4 のF分布に従う。
F>F3,4(0.05) であり、棄却域に入る。よって2群の母平均は等しいという仮説を棄却する。2群の母平均に差がある。
4.4 ウィルクスのΛ(ラムダ)統計量を使用して、2群間の母平均の差の実施。
群1(A業界)の3変量の平方和・積和行列をS1、群2(B業界)の3変量の平方和・積和行列をS2、群内の積和・平方和行列SWとする。
以上をまとめると
|SW|=321.75
全体の平方和・積和行列(ST)
|ST|=5545.12
以上からΛ統計量は、Λ=|SW|÷|ST|
Λ=321.75÷5545.12=0.05802
この時2群の母平均に差があるかどうかの検定統計量Fは
ただし、n:標本数=8 p:変量数=3
Λ統計量から求めた検定統計量と、マハラノビスの距離から求めた検定統計量は一致する。
4.5 誤判別の確率
標準正規分布に関する関数
Z値から確率を求める … =normsdist(Z値)
確率からZ値を求める … =normsinv(確率)
今観測されたZ値=3.4893である。この時の確率値は =normsdist(3.4893)=0.999758
となる。これは下図の灰色部分の値(−∞から3.4893)までの確率値であり、検定に使用する上側確率値は、1− 0.999758=0.000242の値を使用する。正規分布は偶関数であるから、下側2.5%のZ値(−3.4893)を使用すれば、同じ値を得ることができる。=normsdist(3.4893)=0.000242
誤判別の確率は0.024%であることが分かる。
4.6 判別得点を求める
判別得点は、判別式 Y=4.605・X1+11.36・X2−7.08・X3−49.25 で求める。
番号 |
判別得点 |
1 2 3 4 5 6 7 8 |
27.12 −32.17 15.42 27.43 −18.335 27.45 −30.02 −16.85 |
4.7 よい判別式を作成する。
よい判別式は、少ない変量で最良の判別結果を得られる判別関数を求めることである。
変数増加法で最良の判別式を求める。
変数増加法では、使用する変数を徐々に増やしていく方法である。
4.7.1 最初に3変量のうち、判別式で最も寄与している変量を採用する。最も寄与している変量は検定統計量F値の最も大きな値を与える変量である。
変量を1つずつ使用した時のマハラノビスの汎距離を求める。
「変量X1のみ使用した時のマハラノビスの汎距離」
A群・B群の各不偏分散を関数で求める。不偏分散を求める関数は =VAR(範囲)である。
A群・B群の標本数はともに4である。これからプ−ル後の分散を求める。
同様にして、X2変量のみを使用した時、X3変量のみ使用した時のそれぞれのマハラノビスの汎距離を求める。式を作成しておけば、X2の変量をコピーすればすぐに再計算されて、X2を使用した時のマハラノビスの汎距離が求められる。
「変量X2のみ使用した時のマハラノビスの汎距離」
「変量X3のみ使用した時のマハラノビスの汎距離」
以上から各変量を1つ使用時のマハラノビスの汎距離は
X1変量使用時のマハラノビスの汎距離:1.097
X2変量使用時のマハラノビスの汎距離:12.5
X3変量使用時のマハラノビスの汎距離:2.526
各変量1つ使用した時の係数が役に立つかの検定統計量Fは
X1変量使用時のF値:2.194
X2変量使用時のF値:25
X3変量使用時のF値:5.053
それぞれの各変量を1つ使用して得られた線形判別式のF値で最大のF値を与えるのは、変量X2を使用した時であるので、まず変量X2を採用する。
この時の2群の中心間のマハラノビスの距離は12.5であるので、これから変量X2だけを使用した時の線形判別式で判別したとき、その係数が役に立つかどうか検定する。
検定統計量をFとするとF=25.0
自由度は、1,4+4−1−1=6 である。
有為水準α=0.05で
F=25.0 >
F1,6(0.05)=5.978 であるから、係数a2≠0である。
4.7.2 2群の相関比を求めて、相関比の検定を行う。
いま合格群・不合格群に群分けすると以下のような表になる。
|
NO |
X1 |
X2 |
X3 |
合 各 群 |
1 3 4 6 |
3 6 8 4 |
8 7 6 7 |
4 6 4 3 |
不 合 各 群 |
2 5 7 8 |
8 7 6 7 |
2 3 3 5 |
6 5 6 8 |
変量X1について合格群・不合格群に分けると
|
NO |
X1 |
合 各 群 |
1 3 4 6 |
3 6 8 4 |
不 合 各 群 |
2 5 7 8 |
8 7 6 7 |
全変動をST、2群間の級間変動をSBとすると
ST=22.875 SB= 4×(5.25−6.125)2 + 4×(7−6.125)2 =
6.125
よってη2=SB÷ST=0.26776
F=2.194の時の確率値は、=FDIST(F値、自由度1、自由度2)から求める。
いま自由度1:1 自由度2:6であるから
F値 |
F値関数 |
確率 |
2.194 |
=FDIST(E2,1,6) |
0.189054 |
25 |
=FDIST(E3,1,6) |
0.002452 |
5.053 |
=FDIST(E4,1,6) |
0.065631 |
同様に変量X2について合格群・不合格群に分け、全変動・級間変動からη2=0.80645であるからF=25。変量X3について合格群・不合格群に分け、全変動・級間変動からη2=0.457143
F=5.053 と求められる。
4.7.3 変量X2を採用したので、次に変量を1つ増やしてF値を検討する。
変量を増加させた時、その変量を採用するかどうかの目安として、F値を求め、その値が2以上であれば採用するようにする。
(1)変量X2に変量X3を増加させた時
線形判別式は、Y=5.1685・X2−3.30337・X3−9.14607
この時の2群の中心間のマハラノビス距離は、25.989である。
この線形判別式の変量X3の係数a3が判別に役立つかどうか検定を実施する。
a3=0(変量X3の係数a3は役にたたない)という仮説のもとで
検定統計量をFとすると
変量X2を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離はD2 =12.5。変量X2とX3を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離は
D2 =25.989
F値:4.351であるので、X2に変量X3を増加させた式は採用する。
(2)変量X2に変量X1を増加させた時
線形判別式は、Y=0.832117・X1+4.07299・X2−0.259708
この時の2群の中心間のマハラノビス距離は、13.818である。
この線形判別式の変量X1の係数a1が判別に役立つかどうか検定を実施する。
a1=0(変量X1の係数a1は役にたたない)という仮説のもとで
検定統計量をFとすると
変量X2を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離はD2 =12.5。変量X2とX1を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離は
D2 =13.818
F値:0.425であるので、X2にX1の変量を増加させた式は採用しない。
以上の変数増加法により最良の線形判別式は、Y=5.1685・X2−3.30337・X3−9.14607である。
4.8 求めた重回帰式を使用し、未知の値を予測する。
いまA業界・B業界の業界区分不明の人が訪れてきたが、その人の印象が、
X1(礼儀)=6 X2(積極性)=5 X3(強調性)=6 であったとするとこの人はA業界・B業界のどちらの人であると判別できるだろうか?
3変量を使用した時の線形判別式を使用すると
線形判別式は、Y=4.6049・X1+11.3601・X2−7.08042・X3−49.2635
Y=4.6046×6+11.3601×5−7.08042×6−49.2535 = −7.30792
よって、B業界の社員と考えられる。
変数選択法で求めた、最良の線形判別式を使用すると
線形判別式は、Y=5.1685・X2−3.30337・X3−9.14607 であるから、
Y=5.1685×5−3.30337×6−9.14607= −3.12379
よって、B業界の社員と考えられる。