【数量化について】

　　　　　　　　　　　　　ホームに戻る

【数量化について】

　多変量解析の「重回帰分析」「判別分析」「主成分分析」等は、量的データを扱う分析方法であるが、いつも量的データの形で標本を得られるとは限らない。そこで、得られた質的データに適当な数量を与え、質的データを数量化することにより多変量解析が行えるようにすることを「数量化」という。

　統計で扱うデータには、「量的データ」と「質的データ」があり、量的データは数値の間隔に意味を持つデータであるが、質的データはその間隔に意味はもたなく他のものと区別したり、順序を示したりするデータである。

量的データ間隔尺度…絶対原点を持たない尺度データ

　　　　　　　　　　比例尺度…絶対原点を持つ尺度データ

　　　質的データ　　名義尺度…分類を示すデータで大小関係に意味は持たない

　　　　　　　　　　順序尺度…順序関係の大小に意味を持つデータ

　通常質的データは計算することができないので、そのまま統計分析をすることはできない。そこで、質的データを目的に合うように最適な数値に置き換えて数量化することにより、多変量的な解析ができるようにするのが数量化であり、「重回帰分析」「判別分析」「主成分分析」に対応するのが、「数量化Ⅰ類」「数量化Ⅱ類」「数量化Ⅲ類」である。

【５】数量化Ⅰ類

数量化Ⅰ類は、量的データを分析する重回帰分析に対応する質的データを分析する方法である。重回帰分析では、量的データである説明変量から、量的データである目的変量を予測した。これに対し数量化Ⅰ類では、アイテム・カデゴリと呼ばれる質的データを得て、この値から量的データである外的基準（目的変量に対応する）を得る方法である。

アイテム（項目）とは質問事項のようなものであり、カテゴリとはその回答のようなものである。

　アイテムは、例えば「貴方は英語が好きですか？」のようにアンケートの質問事項のように与えられ、カテゴリは「はい／いいえ」のように分類で与えられる。この質的データであるカテゴリから外的基準と呼ばれる量的データを予測するのが数量化Ⅰ類という分析方法である。

〈１〉予測線形式を求める。

［１］アイテムが１つ、カテゴリが２つの場合を考える。

標本Ｎｏ

外的基準

ア　イ　テ　ム

カテゴリ１

カテゴリ２

１

２

ｎ

ｙ₁

ｙ₂

ｙ_n

ｘ₁₁

ｘ₁₂

ｘ_1n

ｘ₂₁

ｘ₂₂

ｘ_2n

いま、外的基準として英語の点数（１０点満点）、アイテムとして「英語は好きですか？」という質問事項、カテゴリとして「はい／いいえ」とする。

標本Ｎｏ

外的基準

英語は好きですか？

はい

いいえ

１

２

３

４

５

６

７

８

２

４

５

７

８

６

５

３

ﾚ

アンケートをとった結果、該当するカテゴリにﾚ印をつけて、上のような表を得たとする。

次に、カテゴリにおいて、該当があれば「ﾚ」をつけたが、このままでは計算することができないので「該当有り…１」「該当無し…０」と置き換える。この置き換える変数のことを「ダミー変数」と言う。

　　　１…アイテム(i)、カテゴリ(j)で該当有り

　ダミー変数（ｘij）

　　　０…アイテム(i)、カテゴリ(j)で該当なし

このダミー変数を使用して、先ほどの表を数量化してみると

標本Ｎｏ

外的基準

ｙ

英語は好きですか？

はい (ｘ1)

いいえ(ｘ2)

１

２

３

４

５

６

７

８

２

４

５

７

８

６

５

３

０

１

０

１

０

１

アイテム・カテゴリの結果から、外的基準を求める予測式Ｙを考える。

Ｙ＝ａ₁･ｘ₁＋ａ₂･ｘ₁ とすると

予測値はＹ₁＝ａ₁･０＋ａ₂･１

　　　　　　Ｙ₂＝ａ₁･０＋ａ₂･１

　　　　　　Ｙ₃＝ａ₁･１＋ａ₂･０

　　　　　　Ｙ₄＝ａ₁･１＋ａ₂･０

　　　　　　Ｙ₅＝ａ₁･１＋ａ₂･０

　　　　　　Ｙ₆＝ａ₁･１＋ａ₂･０

　　　　　　Ｙ₇＝ａ₁･０＋ａ₂･１

　　　　　　Ｙ₈＝ａ₁･０＋ａ₂･１

予測値Ｙiと実測値ｙi とのずれを小さくしたいので、最小２乗法を使って

　　∑（ｙi－Ｙi）² を最小にすることを考える。

　　∑（ｙi－Ｙi）² =(2-a₂)²+(4-a₂)²+(5-a₁)²+(7-a₁)²+(8-a₁)²+(6-a₁)²+(5-a₂)²+(3-a₂)²

= 4a₁²+ 4a₂² - 52a₁ - 28a₂ + 228 ＝Ｇとおく

　　このＧをａ₁ａ₂ で偏微分し０とおいて、正規方程式を得ると

よって、予測式Ｙは、Ｙ＝6.5･ｘ₁₁ + 3.5ｘ₁₂ となる。

この式を使用することにより、アンケート結果から外的基準である英語の点数を予測するこ　　とができる。

［２］アイテムが２つ、カテゴリが２つの時

（１）アイテムが１つの時と同じように最小２乗法で予測式を求める。

　　　今度はアイテムが２つ、英語と数学。カテゴリが２つ、好きと嫌いの場合を考える。

標本No

英語の点数

ｙ

英　語

数　学

好き

ｘ₁₁

嫌い

ｘ₁₂

好き

ｘ₂₁

嫌い

ｘ₂₂

１

２

３

４

５

６

７

８

２

４

５

７

８

６

５

３

ﾚ

これをダミー変数を使用して書くと

標本No

英語の点数

英　語

数　学

好き

嫌い

好き

嫌い

１

２

３

４

５

６

７

８

２

４

５

７

８

６

５

３

０

１

０

１

０

１

０

１

０

１

０

１

０

１

０

１

０

１

０

１

ここで予測式Ｙを

　　　Ｙ＝ａ₁₁･ｘ₁₁＋ａ₁₂･ｘ₁₂＋ａ₂₁･ｘ₂₁＋ａ₂₂･ｘ₂₂ とする。

アイテムが１つの時と同様にして

∑（ｙi－Ｙi）²＝Ｇとして、この式をａ₁₁･ａ₁₂･ａ₂₁･ａ₂₂で偏微分して０とおき、正規方程式を得る。

Ｇ＝(2-ａ₁₂-ａ₂₂)² + (4-ａ₁₂-ａ₂₁)²+ … + (3-ａ_12-ａ₂₂)²

＝228-50ａ₁₁-30ａ₁₂-46ａ₂₁-34ａ₂₂+4ａ₁₁･ａ₂₁+4ａ₁₁･ａ₂₂+4ａ₁₂･ａ₂₁+4ａ₁₂･ａ₂₂+4ａ₁₁²+4ａ₁₂²+4ａ₂₁²+4ａ₂₂²

ダミー変数間で、ｘ₁₁＋ｘ₁₂＝１ｘ₂₁＋ｘ₂₂＝１となっているために、このままではａij を求めることはできない。アイテムが１つの時にはこの問題はなかったが、アイテムが２つ以上になると、この問題は必ず発生する。このため、通常第２アイテム以降の第１カテゴリを０として計算する。

条件　ａi1＝０　（i＝０，１，２，…）としてａijを求める。

ａ₂₁＝０とすると

　４ａ₁₁＋２ａ₂₂＝２５

　４ａ₁₂＋２ａ₂₂ ＝１５

　２ａ₁₁＋２ａ₁₂＝２３　

　２ａ₁₁＋２ａ₁₂＋４ａ₂₂ ＝１７

これを解くと

　　　　　　ａ₁₁ = 7　　ａ₁₂ = 4.5 ａ₂₂ = -1.5

よって予測式は

　　　　　　　Ｙ = 7･ｘ₁₁ + 4.5･ｘ₁₂ - 1.5･ｘ₂₂ と求められる。

（２）行列を使用して、予測式を求める。

　いま、各カテゴリについて行列を作成し、Ｄとすると

ｘ₁₁ 　ｘ₁₂　ｘ₂₁　ｘ₂₂　　Ｙ

これをみると、各行がそのまま正規方程式の係数になっていることが分かる。これから

４ａ₁₁＋２ａ₂₁＋２ａ₂₂ ＝２５

　４ａ₁₂＋２ａ₂₁＋２ａ₂₂ ＝１５

　２ａ₁₁＋２ａ₁₂＋４ａ₂₁ ＝２３

　２ａ₁₁＋２ａ₁₂＋４ａ₂₂ ＝１７

の方程式を得て、ａ₂₁＝０として、ａijを得ることができる。

（３）行列を使用して、予測式を求める。

　（２）の方法では、行列から正規方程式を得てａ₂₁＝０として、方程式を解きその係数ａijを求めたが、最初に行列のａ21成分を取り除いたダミー行列を考えて、直接ａijを求める。

この時、Ｘは、Ｘ＝（Ｄ’･Ｄ）^-1･Ｄ’･Ｙで求めることができる。

一般の場合でも、第２アイテム以降の第１カテゴリを除いた行列から、線形予測式の係数を求めることができる。

〈２〉カテゴリ数量の基準化

通常線形予測式を求めるにあたり、第２アイテム以降の第１カテゴリに対応する数量

ａi1 ＝０（i=2,3…）として求めているので、第２アイテム以降の第１カテゴリ

係数は常に０となる。そこで各アイテム内のカテゴリ数量が０になるようにカテゴリ数量を変換する。これをカテゴリ数量の基準化という。こうすると、第２アイテム以降の第１カテゴリの係数を他のものと同じように得ることができる。

標本No

英　語

数　学

実測値(ｙ)

英語の点数

予測値(Ｙ)

英語の点数

好き

嫌い

好き

嫌い

１

２

３

４

５

６

７

８

０

１

０

１

０

１

０

１

０

１

０

１

０

１

０

１

０

１

０

１

２

４

５

７

８

６

５

３

４．５

７

５．５

７

４．５

５．５

３

予測値Ｙは予測式　Ｙ = 7･ｘ₁₁ + 4.5･ｘ₁₂ - 1.5･ｘ₂₂ から求めた値上の表で、各カテゴリについてａij･ｘ11を求めていくと

標本No	英　語		数　学		実測値(ｙ)英語の点数	予測値(Ｙ) 英語の点数
標本No	ｘ₁₁	ｘ₁₂	ｘ₂₁	ｘ₂₂	実測値(ｙ)英語の点数	予測値(Ｙ) 英語の点数
１２３４５６７８	0 0 7 7 7 0 7 0	4.5 4.5 0 0 0 4.5 0 4.5	0 0 0 0 0 0 0 0	-1.5 0 0 -1.5 0 0 -1.5 -1.5	2 4 5 7 8 6 5 3	3 4.5 7 5.5 7 4.5 5.5 3
合計	28	18	0	-6	40	40
合計	46		-6		40	40
平均	5.75		-0.75		5	5

第１アイテム内のカテゴリ平均：5.75、第２アイテム内のカテゴリ平均：-0.75

外的基準の平均：5 以上から、各アイテム内の平均値＝０から、基準化した予測値Ｙ’は、　

Ｙ’- 5= (7-5.75)･ｘ₁₁ + (4.5-5.75)･ｘ₁₂- (0+0.75)･ｘ₂₁ + (-1.5+0.75)･ｘ₂₂ となる。これから

Ｙ’= 1.25･ｘ11 - 1.25･ｘ12 + 0.75･ｘ21 - 0.75･ｘ22 + 5 が基準化したときの線形予測式となる基準化した線形予測式を求めるには、各係数からその

平均を引いて求めると

標本No	アイテム１		アイテム２		実測値(ｙ) 英語の点数
	ｘ11	ｘ12	ｘ21	ｘ22
１２３４５６７８	0 0 7 7 7 0 7 0	4.5 4.5 0 0 0 4.5 0 4.5	0 0 0 0 0 0 0 0	-1.5 0 0 -1.5 0 0 -1.5 -1.5	2 4 5 7 8 6 5 3
平均	5.75		-0.75		5

以上から、この線形予測式により、実測値の約６０％が説明されており、アイテム１と実測値との偏相関係数＝０．７２９、アイテム２と実測値との偏相関係数＝０．５３９でアイテム１の方が実測値に与える影響は大きいので、より重要な要因である。

〈４〉線形予測式の評価について

求めた線形予測式が、もとのデータをどれくらい正確に予測しているのか、その精度を評価する。

①決定係数（Ｒ²）をみる。

　決定係数Ｒ2は、重相関係数（ｒ）の２乗に一致しており、０≦Ｒ²≦１の値を示す。

Ｒ²が１に近いほど、実測値ｙiと予測値Ｙiの相関が高く、よい予測値であるといえる。

②範囲（レンジ）を調べる。

　各アイテム内の各カテゴリに与えた基準化された数量の範囲（数量の最大値－数量の最小値）をレンジという。レンジの大きいほど外的基準に与える影響が大きいので、より重要なカテゴリである。アイテム１＝1.25-(-1.25)=2.5 アイテム２＝0.75-(-0.75)=1.5 アイテム１の方がレンジ（範囲）が大きいので、アイテム１の方が外的基準に与える影響は大きい。

③偏相関係数を調べる。

各アイテムと外的基準との偏相関係数ｒiyを調べ、ｒiyの値が大きいほど外的基準に与える影響が大きいので、より重要なアイテムである。

ｒ_y1.2＝0.729 ｒ_y2.1＝0.539 であるから、アイテム１の方が外的基準に与える影響は大きい。