【6】数量化U類
説明変数が質的データで与えられ、この質的データから、質的データである外的基準を求める方法。説明変数が量的データで与えられているときには、判別分析があるが、説明変数が質的データで与えられるときに、いくつかの群に判別する方法が数量化U類である。
6人の生徒について、英語と数学(アイテム)の好き・嫌い(カテゴリ)のアンケートをとり、そのアンケートの結果と入学試験に合格したか不合格であったかの結果が下の表のようになったとする。
標本No |
英語 |
数学 |
合否 |
||
好き |
嫌い |
好き |
嫌い |
||
1 2 3 4 5 6 |
レ レ レ レ |
レ レ |
レ レ |
レ レ レ レ |
合 合 合 否 否 否 |
〈1〉判別式を求める。
数量化T類同様に、各アイテムの各カテゴリについて、該当有りは1、該当無しは0の 数量を与える。
ダミー変数として
xi(jk)
=
このダミー変数を使用して上の表を書き換えると 標本No |
アイテム1 英語 |
アイテム2 数学 |
合否 (外的基準) |
||
x11 |
x12 |
x21 |
x22 |
||
1 2 3 4 5 6 |
1 1 1 0 0 1 |
0 0 0 1 1 0 |
1 1 0 0 0 0 |
0 0 1 1 1 1 |
合 合 合 否 否 否 |
説明変数は、数量化により質的データに量的データを与える。結果の合否は、質的データ(区分データ)である。量的データと質的データの関係を表すものとして相関比(η)がある。相関比(η)は、級間変動÷全変動で与えられる。
いま、各カテゴリをx11・x12・x21・x22とし、これらのカテゴリから求められる合成変量(以下判別得点と呼ぶことにする)をYとすると、Y=a11・x11+a12・x12+a21・x21+a22・x22
この式を使用して、実際に各標本の判別得点を求めると次にような表になる。
数量化T類と同様にダミー変数間に、xi(11)+xi(21)=xi(21)+xi(22)=1の関係があるので、このままではaij を求めることができない。このために数量化U類では、通常ai1=0とする。(a11=a21=0)
判別得点から相関比を求め、相関比が最大になるようなaij を求める。相関比が最大になれば、2群が最もよく区分されているといえる。相関比(η)は、全変動をST、級間変動をSB とすると η2 =ST÷SB で与えられる。
@全変動を求める。
全変動は、各データが全平均からどれくらいバラついているかである。
A級間変動を求める。
級間変動は、1群の平均が全平均からどれくらいバラついているかと、2群の平均が全平均からどれくらいバラついているかの合計である。
この判別式から判別得点を求めると、下の表のようになる。
群 |
標本No |
アイテム1 |
アイテム2 |
判別得点 Y |
平 均 |
||
英語 |
数学 |
||||||
x11 |
x12 |
x21 |
x22 |
||||
合 格 |
1 2 3 |
1 1 1 |
0 0 0 |
1 1 0 |
0 0 1 |
0 0 0.707 |
0.2356 |
不 合 格 |
4 5 6 |
0 0 1 |
1 1 0 |
0 0 0 |
1 1 1 |
1.414 1.414 0.707 |
1.178 |
|
全 平 均 |
0.707 |
この時相関比は
〈2〉行列を使用して判別式を求める。
相関比をηとすると
例題のような2群の判別の時を考える
|
係数 |
a12 |
a22 |
判別得点 Yij |
標本数 |
カテゴリ |
x12 |
x22 |
|||
1 群 |
標 本 |
0 0 0 |
0 0 1 |
Y11 Y12 Y13 |
n1 |
計 |
0 |
1 |
Y1 |
||
平均 |
|
|
|
||
2 群 |
標 本 |
1 1 0 |
1 1 1 |
Y21 Y22 Y23 |
n2 |
計 |
2 |
3 |
Y2 |
||
平均 |
|
|
|
||
総計 |
合計 |
2 |
4 |
Y0 |
|
|
平均 |
|
|
|
n0 |
※合格群:1群 不合格群:2群
〈3〉カテゴリ数量の基準化
数量化U類では、判別式を得るにあたり、第1カテゴリに対応する数量をai1=0(i=1,2…)として求めているので、この結果a11=0、a21=0
となるので、各アイテム内のカテゴリ数量の平均が0になるように基準化を行う。
Y=-0.2357x11+0.4713x12−0.4713x21+0.2357x22 となる。
この基準化した判別式を用いて、それぞれの標本の判別得点を求めて表にすると
群 |
標本No |
アイテム1(英語) |
アイテム2(数学) |
判別得点 Y |
平均 |
||
x11 |
x12 |
x21 |
x22 |
||||
合 格 |
1 2 3 |
-0.2357 -0.2357 -0.2357 |
0 0 0 |
-0.4713 -0.4713 0 |
0 0 0 |
-0.707 -0.707 0.2357 |
-0.471 |
不 合 格 |
4 5 6 |
0 0 -0.2357 |
0.4713 0.4713 0 |
0 0 0 |
0.2357 0.2357 0.2357 |
0.707 0.707 0 |
0.471 |
|
合計 |
-0.943 |
0.943 |
-0.943 |
0.943 |
|
|
合計 |
0 |
0 |
|||||
平均 |
0 |
0 |
〈4〉外的基準に与えるアイテムの影響力について
どのアイテムが一番外的基準に影響を与えているかを調べるには、レンジ(範囲)・単相関係数・偏相関係数をみるようにする。外的基準に与える影響力の大きいアイテムほど重要なアイテムであるといえる。
(1)レンジ(範囲)を調べる。
数量化T類と同様に、各アイテム内の基準化されたカテゴリ数量の「最大値−最小値」をレンジ(範囲)という。レンジの大きいアイテムほど外的基準に与える影響が大きいといえる。
標本No |
アイテム1(英語) |
アイテム2(数学) |
1 2 3 |
-0.2357 -0.2357 -0.2357 |
-0.4713 -0.4713 0.2357 |
4 5 6 |
0.4713 0.4713 -0.2357 |
0.2357 0.2357 0.2357 |
レンジ |
0.707 |
0.707 |
レンジを求めると
アイテム1…
0.4713-(-0.2357)=0.707
アイテム2… 0.2357-(-0.4713)=0.707
アイテム1・アイテム2ともにレンジは 0.707 であり、アイテム1・アイテム2ともにレン ジからみると外的基準に与える影響力差はないといえる。
(2)各アイテムと外的基準との間の単相関係数を調べる。
外的基準は、「合格」「不合格」といった質的データであるから、この外的基準に対して数量を与える。外的基準が2群であれば、よく2群を区別できるように「合格」に対して「−1」を与え、また「不合格」に対して「1」を与えると次のような表となる。
標本No |
アイテム1(英語) x1 |
アイテム2(数学) x2 |
外的基準 y |
1 2 3 4 5 6 |
-0.2357 -0.2357 -0.2357 0.4713 0.4713 -0.2357 |
-0.4713 -0.4713 0.2357 0.2357 0.2357 0.2357 |
−1(合格) −1(合格) −1(合格) 1(不合) 1(不合) 1(不合) |
アイテム1をx1、アイテム2をx2、外的基準をy、またアイテム1と外的基準との単相関係数をr1y、アイテム2と外的基準との単相関係数をr2yとすると、それぞれの単相関係数は
それぞれの説明変量と外的基準との単相関係数についても、アイテム1とアイテム2は同 じであり、同等の影響を与えている。
なお、説明変量間でお互いに高い相関が認められるときには、多重共線性を示すので、その時にはどちらか一方の説明変量を落として判別式を求めるようにする必要がある。
いまアイテム1とアイテム2の間の相関係数を求めると、r12=0.5であり、それほど高い相関はないと認められるので、多重共線性はないといえる。
(3)各アイテムと外的基準との偏相関係数を調べる。
数量化T類と同様にして、各説明変量と外的基準との偏相関係数を求める。
単相関行列をRとすると