当社の業務で使用している用語を解説しています.
Home 既刊書籍 会社概要 ア行 カ行 サ行 タ行 ナ行 ハ行 マ行 ヤ行 ラ行 ワ行 参考文献
第1種の誤り(統計的仮説検定,危険率,有意水準など参照)
統計的仮説検定は,起こった事象が偶然か否かを調べる方法であるが,結論は偶然である可能性を確率によって表現する.すなわち,偶然に起こった可能性が1%以下であるから偶然とは考えない方が妥当である,というような結論の出し方をする.したがって,偶然ではないと結論を出しても,偶然に起こった可能性はゼロではなく,極くまれな事象が起こったかもしれない.常識では考えられないような事象が起こったときには結論が誤りになる.このような誤りを第1種の誤りという.統計的な仮説検定をする場合,前もって許容される誤りの大きさを決める.この意味で危険率とも言われる.どのくらいの割合まで許容するのかと言う意味では,有意水準とも言われている.
対応のあるt検定(統計的仮説検定,t検定など参照)
「対応のある」とは,同一の対象が条件を変えて2度測定されたとき,あるいは何らかの条件によって測定が対応付けられた場合を言う.性差,年齢差など対象のメンバーが異なる場合には「対応がない」ことになる.同一のサンプルが2回測定されたときの平均値の差を検定するときには対応のあるt検定を行う方が検出力が高くなる.学習の効果など同じ人に対する2度のテストの差を検定するときなどは対応のある検定をする.異なった群の平均の差は対応のないt検定を用いる.調査において,項目間の差の検定は「対応のある検定」を用いて,性差,年齢差のように異なった人の間の差の検定には,対応のないt検定か1要因の分散分析を用いる.対応のあるt検定は2つの数値の差のゼロ検定と同じである.また,2要因の片方の要因効果を考慮して,分散を調整するが,その要因を検定しないことを意味する.
対応のある比の差の検定(統計的仮説検定参照)
「対応のある」とは,同一の対象が条件を変えて2度測定されたときに用いられる.2度の測定値が比率で表現されるとき,対応のある比の検定法を用いる.
対数オッズ(オッズ,オッズ比参照)
オッズの対数をとったもの.y=log{p/(1-p)}(0<p<1)で表わされる.ロジット変換式と一致する.オッズを対数変換すると,ロジスティック関数と線形的な関係になる.オッズは,賭の状況において,確率より都合が良いことが多い.1より大きければ当たりの可能性が高く,1より小さければはずれる可能性が高くなる.当たる確率が1に近くなると,かなり大きな度合で掛けるので,単なるオッズでは,心理的な期待や危険度を,尺度値として表現できない.対数をとると比較的うまく表現できる.比率と心理的な期待度(プラス方向)や危険度(マイナス方向)との関係を表したのがロジスティック関数である(ロジスティック関数の図参照).比率は,全体の大きさに対する該当する対象の大きさの割合であるが,大きさを対数変換することが人間のイメージによく合うならば,比率は,全体度数の対数と該当度数の対数の差によって表現できる(比率は心理尺度上の差).さらに,当たりの率とはずれの率をイメージ的に比較することは,当たりの心理尺度値(全体度数との対数上の差)と,はずれの心理尺度値の差をとればよいことになる.オッズの対数をとった対数オッズは,上記のような行動モデルの表現として理解できる.ロジスティック関数は心理尺度とは別に,比率と心理尺度(潜在変数)との関係を関数的に表したものという解釈ができる.対数オッズは,集計表の出現率(二項分布する現象)などによく利用され,統計的に重要な概念となっている.
対数関数
y=log x.対数関数を微分すると双曲線関数になることから,弁別閾がほぼ刺激の逆数に比例することと関連づけられて,刺激値から感覚値への変換式(心理物理関数)として利用されてきた(フェヒナーの対数法則).デシベル表示など対数変換は,心理的な量を近似的に表現するのに便利であるが,厳密には,必ずしも対数関数が当てはまるわけではない.
対数曲線の応用的意味
おもに人間の行動や現象を取り扱う場合,自然な測定値にはマイナスがないのが普通である.度数,長さ,大きさなど.数値に意味を付けたとき,マイナスが生じる.また,「10%引き」と言うように,底の大きさを考慮せずに,割合の大きさで理解することも多い.このようなことは,金額などのイメージを,実数ではなく,指数(肩に付いた数値)の中で考えていることになる.指数の中で考えることは,無限に近い数値も比較的簡単にイメージの中に取り込んで,思考可能にしている.その反面,エネルギーレベルの数量を取り扱うときに誤解してしまうことになる(指数レベルの足し算が現実には掛け算になっていること).また,珍しい事象(病気など)を発見して,事前に手を打つ場合など,極めて小さい数値(人口に対する出現率)を有効に取り扱うときに,大きな数値をうまく処理したのと同様に,人間は,微小な数値も矛盾なくイメージに取り込んで現象を把握している.対数関数は,このようなプラス,大きい数値,小さい数値を1つの関数で取り扱えるので,人間のイメージをよく表現できるモデルである.対数関数が現実の数値からイメージに合う尺度への変換を意味するならば,その逆関数である指数関数はイメージに近い数値(意識レベルの測定値や現象)をエネルギーレベルの操作的数量に変換するモデルと言える.指数型分布における線形予測など,指数の中で数的操作をすることは,要因の意味が人間の意識内容に近い形で定義されていると思われることから,上記のような考え方と矛盾しない(尺度値の問題).これに加えて,人間は,自分を原点にして知覚し,短期間の相対的な変化傾向(微分係数など)を基本的に受容して,情報の処理を行うようないわば相対的な測定値から出発するという原則(原点・位置の問題)という2つの問題が,モデルの基本的な問題と言える.
対数コレスポンデンス分析
通常のコレスポンデンス分析は、クロス表の度数を周辺度数によって、カイ2乗統計量のように調整して、布置を求めるが、その考え方は、クロス表のセルの度数が漸近的にポアソン分布をすることと関係がある。ポアソン分布を想定する度数の場合、対数変換をすることにより、実数全体に広がる数値に変換できることから考えると、コレスポンデンス分析などの数的処理は、対数変換後の数値を用いた方が自然である。この考え方は、対数線形モデルと一致している。また、対数変換後のコレスポンデンス行列への変換は、分散分析と同じように、行と列方向の平均値によってなされる。したがって、コレスポンデンス分析の数的処理は、対数変換後の数値の行,列の平均値によって行われるために、分散分析の交互作用(繰り返しがない場合の残差)項のを分析することに当たる。この交互作用項は、変数間のプロフィール距離の分析に当たる(形のみの類似度分析)。図の適用例のように、コレスポンデンス分析の対数モデルは、布置が周辺に散らばることが少なく、まとまりよく分布する。また、度数の小さいデータが、通常のコレスポンデンス分析では、誤差として中心に集まる傾向があるが、対数モデルの場合には、ポアソン分布と同様、小さい度数を比較的有効に生かされ、自然な布置が実現される。「コレスポンデンス分析の利用法」(2005刊)2730円参照.
対数線形モデル
一般に出現度数である目的変数を対数変換した場合の要因分析モデル.出現度数の対数変換がポアソン分布の自然母数になるので,ポアソン回帰分析モデルと呼ばれることがあるが,概念的には同じではない.測定値にポアソン分布を仮定した場合には,最尤法によって,線形モデルのパラメータを推定する.分析する該当者数の割合が,非該当者数の大きさに依存しない場合に適合する.
対数線形モデルと対数正規モデル
対数線形モデルは,測定された度数を対数変換した変量について,要因分析モデル(線形予測子)を適用する場合であり,測定値がポアソン分布をする場合に適用される(「対数線形モデル」,「ポアソン回帰分析」など参照).対数線形モデルでは,対数変換された後の分布についての特徴には言及していない.したがって,測定誤差はポアソン分布になるので,パラメータの推定法は,原則として最尤法を用いることになる.
対数正規モデルは,対数変換した後の変量が正規分布するということを意味するモデルである.要因分析の部分を式で表わすと,対数線形モデルも対数正規モデルも同じような形になる.しかし,誤差分散が異なっているので,対数正規モデルは,対数変換後に正規分布をするという仮定から,パラメータの推定には,最小2乗法が用いられる.実際の分析においては,データから分布の形を確認すべきであるが,過去の分析結果を参考にして,前もって正規分布の仮定をして分析をすることが多い.最小2乗法は,推定の技術として使われることが多いが,正規分布をしない場合には,必ずしも良い推定値にならないこともある.
第2種の誤り(統計的仮説検定参照)
統計的仮説検定では,起こった事象が偶然だと仮定してその確率を計算し,めったに起こらないような確率ならば,偶然ではないと考える.偶然に起こった可能性が2%だとし,偶然か否かの判定水準を5%(20回に1回の割合)だとすれば,確率2%(50回に1回)の事象は偶然に起こったとは考えないことになる.もし,確率が10%(10回に1回)であったとすると,偶然に起こることはあまりないが,起こる可能性も小さくない.そこで,結論を誤らないために,偶然ではない(意味がある)と結論することを控えることにする.すなわち,安全のために,偶然に起こったことと区別できないことにする.10回に1回の確率なので偶然ではない可能性が高い.その時点では,判断できないことであるが,もし,偶然ではないとしたら,その結論は誤っていることになる.この誤りを第2種の誤りという.
多項ロジットモデルmulti-nominal logit model,入れ子型ロジットモデル,一般化極値(GEV)モデルなど
ロジットモデル(ロジスティック回帰分析のモデル)は,2値(該当,非該当)のデータに適用されるが,回答が多肢選択の場合に一般化したモデルとして,多項ロジットモデルがある.数量で表わせない競合する商品の選択や交通手段,観光地の選択などに適用される.pi=EXP(mVi)/{EXP(mV1)+EXP(mV2)+・・・+EXP(mVk)} (k個の選択肢のうちi番目の選択肢の割合,mはパラメータ,Vは要因分析の線形式).この式は,個々の選択肢のの持つ効用値(魅力度)の合計値に対する,個別の効用値の大きさの割合が,選択率になることを示すも選択のモデルとその選択肢が選ばれる要因を回帰的に調べるモデルと言える.潜在変数である効用値(指数関数部分)が確率変動すると考えると(効用値の測定値に誤差が伴うとする.ランダム効用モデル),確率変動として,事象の最大値の分布であるガンベル分布(二重指数分布)を仮定すると,この式が成り立つ.
多項ロジットモデルは,選択肢間の関連性がない場合(競合する製品に特にサブグループなどが想定されない場合,independence
from irrelevant alternative,IIA)に良く当てはまるが,選択肢の相関関係がある場合,サブクループの中で,効用値の関連性のウェイトを加味した入れ子型ロジットモデル(nested
logit model)などがある.単純な入れ子形式にならない場合には,cross-nested
modelなどがある.極値分布をガンベル分布からより一般的な形式にした一般化極値分布(generalized
extreme value distribution,GEV)モデルがある.GEVモデルは,その特殊な場合として,多項ロジットモデル,入れ子型ロジットモデル,cross-nested
logitモデルなどを含んでいるので,表現として有効に使える.(Discrete choice
model,M.Bierlaire,1997,The network GEV model,M.Bierlaire,2002,The Generalized
nested logit model,Wen&Koppelman,2000など参照)
多次元尺度構成法Multi-dimensional scaling
MDSと略記.多次元尺度法と言うこともある.多数の対象間の距離などの差異を表す行列から,対象を空間的に布置する方法(マッピング)として知られており,多変量解析と同様に扱われている.尺度法とは,一般に刺激間の違いを表したデータから,全体の対象を矛盾のないように尺度上に位置づける方法のことを言うのであるが,3点間の距離が測定されているとき,短い2つの距離の合計が長い距離に等しければ1次元で表現でき,長ければ2次元でないと表せない.合計が短い場合には,測定法に問題があるか,ユークリッド距離モデルがあてはまらない.このようにして,一次元の尺度構成法から多次元の尺度構成法が発展したことにより,距離データから座標値を求めることを尺度構成といい多変量解析とは別の名前になっている.実際の数値解析では,距離から原点からのベクトルの積和へ変換することが行われて(ヤング・ハウスホウルダーの変換),最小2乗解としての次元の小さい固有値・固有ベクトルによって近似するので,多変量解析と同じ様な解法のなる.距離のようなメトリックな数値ではなく似ているか似ていないかというような順序情報が人間の行動には適用できることが多いことから,構成された空間に順序情報が再現されるときにようにするノンメトリックMDSが多く利用されている.ノンメトリックMDSは,順序情報の処理方法である単調回帰法と非線形のパラメータ推定法から構成されている.
「M-01 MDS・多変量解析」には応用例が多い.「M-02 ノンメトリックMDS」はKuruscalのノンメトリックMDSの解説書.「A-20 個人差を考慮したMDS」は個人差を分析するためのMDS.「A-31 POV」個人差空間と刺激空間を別に求める方法.「A-69 INDSCAL」個人差メトリックMDSの一つ.「A-70 3相因子分析」個人差空間,刺激空間,尺度空間を求めるメトリックな方法.
多重共線性multiple co-linearityの問題
重回帰分析を行うとき,独立変数間(説明変数間)の相関が高いことを意味する.重回帰分析の説明変数は、本来、互いに因果関係のない変数と考えられる場合に用いられるので、偏回帰係数は、説明変数間の相関係数がないときの推定値にあたる。説明変数間の相関があまりに高いときには、推定値が不安定になる。これは、ものさしのように細長く散らばった点から、平面の傾きを推定することに例えることができる。1単位の誤差が、広い平面の場合(多重共線性のない場合)の推定には比較的問題が少ないが、細長い布置の場合には、誤差を持つ点の位置によって推定値が大きくが変ってしまう。同じ誤差であるが、説明変数のとり方によって推定値の不安定さが異なることを示している。できることなら多重共線性は避けるべきであるが、多かれ少なかれ、多重共線性的なデータを取り扱うことが重回帰分析の本来の目的であると言える。ちなみに、説明変数間に相関関係があることによって、偏回帰係数の符号と単相関係数の符号とが異なることは、多重共線性とは直接関係しない。本来、説明変数間に相関関係(因果関係)がある場合には、偏回帰係数には、具体的な意味がないのが普通である。その意味で、説明変数間に因果関係を想定した場合には、重回帰分析とは別に重相関法と言うことがある(芝、1980)。
多重コレスポンデンス分析
多重クロス表(3元表など)のコレスポンデンス分析。3元表の分析には、複数の2元表(例えば年齢別など)を別々に分析する方法のほか、複数の2元表を縦に並べて1つの2元表として分析する場合(同一要素が空間内での変化・移動として捉えられる)、3相コレスポンデンス分析の場合(3つの相の要素を同一空間に位置付ける場合)、外部分析を適用する場合(基準の2元表について分析して、他の2元表の要素は追加する場合)などがある。多重コレスポンデンス分析は、3元データを2元表の形にして分析するので、分析が簡単であり、結果についても、同じ要素の点が条件別に求められるので、時系列的な移動、条件別の点の変化など、解釈がしやすい表現形式になる。
多重判別分析法(判別分析,数量化2類など参照)
判別分析は,多数の特徴から所属群を予測するときに用いる方法である.購入者群,非購入者群など.多重判別分析は,3つ以上の群を予測するときに用いられる.3群のときには2つの独立した予測方程式(2次元)が用いられる.4群のときには3次元(ランクが3)になる.群を予測する方法として,判別分析法や判別関数法,数量化2類などがある.判別分析法は2群の判別のとき,判別関数法は多群の判別を2群ごとに行い関数の組み合わせによって予測する.数量化2類は群の特徴を表す変数がカテコリーのときに用いられる.
多重比較multiple comparison(分散分析法など参照)
分散分析によって多数の平均値に差があるかないかを検定するのは,データ全体について,要因群の平均値を無視したときの分散と平均値を考慮したときの分散の大小比較をする.したがって,特定の平均値に注目しないで,分散の大小で判定する.個々の平均値に注目して,どの平均値とどの平均値に差があるのかを調べることは,平均値の多重比較の問題と言われる.平均値の数が多いときには,2つの平均値の組み合わせを考えると,その組み合わせの数が多いので,本来,平均値に差がなくても偶然に差の出る可能性が高くなる.t検定を2回すると,単純に考えると,偶然に有意になる確率を2倍にしている(くじを2回引くと当たる確率が2倍になるのと同じ,実際には2つのt検定は独立ではないので2倍にはならない).したがって,全体の検定で有意になった後,多重比較をするには,何らかの形で偶然の確率を割り引く必要がある.多重比較の方法には,いくつかの方法が考えられている.
多相外部コレスポンデンス分析multi-mode external correspondence analysis→外部多相コレスポンデンス分析(相の追加)
多変量回帰分析の一般的な仕組み
目的変数、説明変数がともに複数の場合の回帰分析は多変量回帰分析と言われる。原理としては、多変量間の関連性を分析する部分と要因効果を検定する部分が多変量回帰分析であり、多変量間の関連性行列(多変量標準偏回帰係数行列)の主成分分析が正準分析と言われ、2つの部分がある。正準相関分析、数量化2類、多重判別分析などは、後者の多変量間の関連性行列を分析する方法であるが、計算の出力には多変量回帰分析の説明率(一般化決定係数や相関比など)などの指標が含まれていることから、多変量回帰分析の部分が意識されないことが多い。多変量分散分析は、多変量回帰分析の検定部分にあたるが、多変量回帰分析の分散の分解が検定のときの一般化分散と線形関係にないので、多変量分散分析は、多変量回帰分析とは別の方法と言える。多変量分散分析は、分散行列の分解とその行列式から計算できるほか、分散行列の固有値や正準分析の固有値からも計算できるので、多変量回帰分析の結果から簡単に計算できる
多変量回帰分析(3変数群の場合)
変数群を1つの空間ベクトルとして表現すると、重回帰分析のベクトルイメージと同じように、3つの変数群の関係は、図のように表現できる。したがって、多変数群間の回帰分析は、説明変数群間の変数を合成した説明変数空間に対する従属変数群の射影にあたるので、説明変数群を2つの空間ベクトルに分解し、説明変数空間に直交する空間ベクトルの独自分散(多変量標準化後の内積行列の2乗和)が誤差になり、説明変数空間に含まれる変数群の多変量標準化後の内積行列の2乗和が、決定係数の分散になる。この決定係数行列は、3元の形になるが、要素が互いに独立しているので、2元の形に並べ替えても構わない。3つの群の正準相関分析も多変量回帰分析と同じ形式になるが、関連性の行列(3元の形)の因子を求めるときには、3元主成分分析(3相主成分分析)を用いる。また、この因子は、2元データの形に並べ換えたときの因子を用いることもできる。
多変量回帰分析の説明率指標(正準相関分析、重判別分析、数量化2類、多変量分散分析など)
目的変数が複数の場合の要因分析である正準相関分析、重判別分析(正準判別分析)、多変量分散分析、数量化2類など(一般的に多変量回帰分析)は、基本的に同じ計算法になるので、説明率の指標は共通している。大きく分けて、多変量の分散(一般化分散やΛ統計量など)関係の指標と目的変量の個別の分散を利用した指標に分けることができる。
一般化分散は多変量から直接定義され、要因効果はΛ統計量(誤差部分)やベクトル相関(説明率部分)で表され、有意性検定に用いられる。一般化決定係数は、個別の分散から相関部分を除いた場合の要因効果の指標であり、冗長性係数は、個別の分散の合計(相関部分を除かない分散)についての説明率指標である。相関比、正準相関係数などは、一般化決定係数系統の指標である(「多変量回帰分析・正準相関分析・多変量分散分析」(2006年刊)参照)。
多変量解析の定義
多変量解析は、習慣的には、次項のようにまとめられるが、本書では、次のように定義している。
多数の変数を取り扱う場合、通常の測定データでは、相互の相関関係があるので、因果関係などを分析する場合に相関する部分を多重に使わないようにする必要がある。相関する部分を取り除く方法は、独立次元を用いるときには主成分分析であり、次元ではなく元に変数を用いる場合には、後述の「多変量標準化」である。したがって、多変量を用いて分析する場合でも、相関する部分を多重に使わないような形にして分析する方法が多変量解析ということができる。
主成分分析や因子分析は、独立次元そのものを求めるような多変量解析であり、重回帰分析は、説明変数側について多変量標準化を行っているので、多変量解析と言える。多変量回帰分析、正準相関分析、数量化2類、多重判別分析などは、説明変数と目的変数の両方について多変量扱い(相関部分を多重に使わないこと)をしている多変量解析である。多変量分散分析は、変数ベクトル(分散)から相関部分を除くというような上記の多変量解析とは異なり、「一般化分散」という相関部分を用いない独自の分散を定義している多変量解析であるが、基本的には相関部分を多重に使わないような多次元分布(ウィシャート分布)を用いてカイ2乗を一般化した場合に当たる。そのほか、マハラノビスの距離は、多変量の相関部分の多重性を除いた後のユークリット距離であり、フィッシャーの情報量は多変量扱いをした場合の(相関部分の多重性を除いた後の)多変量の分散ということができる。既刊書「多変量回帰分析・正準相関分析・多変量分散分析」(2006)、「データ分析入門2 多変量解析法・MDSの応用」(2008)など参照。
多変量解析法multi-variate analysis
多変量を分析する方法の総称.因子分析法,重回帰分析法,判別分析法,数量化T,U,V,W,正準相関分析法,クラスター分析法などが代表的方法.解法は,基準変数に対する相関の最大化(分散の最大化),残差分散の最小化などの基準で解くので,ほとんどの解析法が同じような方法に帰着する.狭い意味では,目的変量が多変量の場合(多変量正規分布などの多変量分布を想定する場合)を言い,重回帰分析などは1変量であるが,一般的に、多変数を扱う分析法を多変量解析と言っている.
多変量解析における質的(次元の)違いと量的(得点の)違い
因子分析の例で言うならば,因子あるいは因子空間の違いを質的違いと言い,因子得点の差異を量的違いと言える.因子得点は個人差の問題であり,因子空間は,すべての個人(サンプル)に共通している.個人差を問題にするときには,因子空間を一定にして,得点の大小の違いによって表現する.したがって,共通因子空間を同じにしなければ,個人差の比較はできないのが普通である.共通因子空間は,いわば,尺度(ものさし)にあたる.多変量解析を利用するときには,次元の差異(尺度の差異)を見ることよりも,尺度で測られた得点の差異を見たいという要請が強い.一般に,多変量解析では,次元,因子,空間の問題(尺度あるいは質的な問題)と,その尺度で測られた得点の大小の問題(量的な問題)の2つの要素を含んでいる.したがって,原理的には,2つの要素を分離することができる.応用的に価値の高い方法は,質的な空間(尺度)を慎重に定めておいて,得点のみを測定して比較することである.時系列比較や条件別の比較が有効に行える.ここでは,このような方法を,外部分析と総称している.要因効果を取り扱う場合,測定の環境の差異と要因の差異は,基本的に分離できないので,考えられる外乱要因は,目的変数と同時に必ず測定しておいて,実験条件(調査条件)が,等質であったかどうか確認できるように努力する必要がある.(外部分析の項参照)
多変量標準化
多変量データは、変数間に相関関係があるので、全体としてまとめて(1つの空間として)他の変数との関連性(要因効果など)を見る場合、@相関する部分を多重に取り扱わないこと、A多変量なので各変数の単位を標準的にすること(身長と体重を同時に取り扱うときなど)、の2つの操作が必要である。単変量の場合には、標準偏差で割ることによって標準得点を計算する。
多変量の場合には、相関行列(分散共分散行列)の逆行列の平方根行列を用いる。その意味は、@多変量を直交成分に分解する(固有値、固有ベクトルを求めると固有値に分散が反映する)、A直交成分の分散を1にする(固有値の平方根で割る)、Bもとの変数の方向に分解する,ということになる。
このことによって、図1のような変換がなされ、多変量の分析が行われる(多変量回帰分析・正準相関分析・数量化2類・重回帰分析の説明変数など)
多変量の分散分析(MANOVA)・多変量回帰分析
測定値が複数ある場合、測定値(目的変数)の分散は分散共分散行列(分散行列と略す)で表現される。要因効果の検定は、目的変数の分散行列を要因によって分解し、分散行列の分散指標である一般化分散を用いる。
測定値間に相関がある場合には,個々の変数を別々に検定すると分散を多重に使うことになるので、このようなことのないように、多変量を同時に取り扱う一般化分散を用いる。検定には、変量の多変量正規分布、分散行列のウィシャート分布(カイ2乗分布の多変量への拡張)を想定することによって定義される尤度比統計量Λが使われる。
Λは、分散行列の行列式から計算されるが、多変量回帰分析や正準相関分析、数量化2類、多重判別分析の場合、行列式を用いないで、正準主成分の固有値から直接計算することもできる。
ダミーコーディングdummy coding(01型コーディング)
カテゴリー変数について数量的な分析をするときに,カテゴリーを01変数として表現する.カテゴリー変数は、カテゴリー数マイナス1の01変数に変換され、重回帰分析などの数量的分析を適用することができる。図のように、最後のカテゴリーにすべて0を与え、他のカテゴリーは、該当するカテゴリーに1を与える。
要因分析の説明変数に使用する場合、3つのカテゴリーは2次元平面を形成する(ランクが2)。異なった3点が平面を形成するのと同じ。要因分析の場合、平面に対する目的変数の射影が問題となるので、どのような点をとって平面を形成しても構わない。したがって、3つのカテゴリーに与える数値は無数になる。その中で、最後のカテゴリーを基準点にして、他のカテゴリーに対して座標軸上の1の位置を与えれば、回帰係数が、他のカテゴリーとは無関係に、基準カテゴリーとの差として表現されるので、カテゴリーの効果を見るときに都合が良い。このコーディング法がダミーコーディングであり、分散分析、数量化分析など、最も多く使われる。計算された回帰係数から、回答者数を考慮して標準得点(平均0、分散1)のためのカテゴリーウェイトを計算することが行われる。「カテゴリーウェイトの計算」項目参照。
上記のようにコーディング法は無数に存在するが、利用上、都合のよいコーディング法として、このほか効果コーディング、直交コーディングなどがある。詳しい内容は,「A-55重回帰分析の利用法」(2004刊)参照.
タレントイメージ評価項目
当社では,一般的なイメージ評価項目によって評価を行っている.「J-17イメージの測定法」参照.
単調回帰法monotone regression analysis
測定値の順序情報のみを使う回帰分析としてKruskal(1964)によって提案された方法.もともと,ノンメトリック(順序データ)の多次元尺度構成法として考えられたが,順序情報の処理法として広く利用することができる.計算方法は,モデルの最適化の手順と順序情報の処理である単調回帰手順を交互に繰り返す.最適化計算は,モデルによって最小2乗法,最尤法,適合度指標の最大化などになる.単調回帰手順は,単調関係が満たされない対象は,平均値を求めることによって同順位を作って,単調関係を満たすようにする.全体の目的変数は,順序の測定値であり,モデル式が説明変数にあたるが,計算上は,順序測定値が説明変数になって,連続変量として目的変数を構成することになっている.
単調回帰法monotone regression analysisのアルゴリズム
計算目的の数値が要因等から「最適値計算手順」によって推定された後(単調回帰法の項参照),目的変数の順序値に照らし合わせて,誤差を計算する.順序処理は解析的ではなく,アルゴリズムとして示されている(Kruskal,1964).最適値計算と順序値をプロットして,順序関係に矛盾があるときには,矛盾のある部分を平均した値を順序データの代わりとして用いる.このようにして計算された値は(図の黒丸),順序データと単調関係にあるので,同順位を認めた形で,順序値の代わりになる連続量目的変数と言える.この数値と,「最適値計算数値」とのギャップが誤差と言える.次の計算ステップでは,この数値が従属変数となって,「最適値計算」が行われる.順次反復して,収束するまで繰り返す.最適値計算が,最小2乗法などの時には数回の反復で収束するが,最急降下法のような数値的計算法では,収束が遅く,極小値に落ち込むことが多く,事前に識別性をチェックできないことが普通なので,推定値すべて,0を最適にするような退化した解を出すことも多い.
チップゲーム(恒常和法参照)
たとえば2つの対象について11個のチップを好きな度合によって分ける,というような手続きによって嗜好度を測定する方法.統計的には合計値を一定にして得点を配分する恒常和法(constant sum method)と呼ばれている.この方法を,分かりやすい形で具体的な手続きにしたのがチップゲームになる.
中古不動産物件評価方法
「J-28不動産物件価格計算」は,1980年代の物件が使われているので,パラメータ自体はほとんど使えない.計算の方法は,数量データ(床面積,都心からの時間距離など)は,線形性が成り立つ範囲を区切って単価計算(折れ線近似)し,カテゴリー項目(マンションの部屋の向きなど)は01データのウェイト(単価)を計算して加算する方式.単価は金額そのものを用いている.線形性を保つため,パラメータ推定のための物件は,データの分割可能な範囲で細分化して,別々の方程式を作成している.コンピュータプログラムは,場所の指定によって,異なった方程式を呼び出す形式になっている.
直接確率法(統計的仮説検定参照)
フィッシャーの直接確率計算法.偶然に起こった確率を計算するときに,連続分布を用いずに,場合の数を数えて計算する.度数や要因が小さいときにはカイ2乗分布近似がよくないので,正確な確率を計算した方がよい.独立に変化する変量が多くなると計算ができなくなるのでχ2分布などを利用する.一般的には超幾何分布の確率計算になる.得られた分割表が帰無仮説に従って最も偏ったケースからどのくらいの位置にあるかを計算して有意水準と比較する.「M-31
直接確率計算法とχ2近似」,フィッシャーの直接確率法とχ2検定(カイ2乗検定)の両方を行うプログラム.「A-64
クロス集計表の見方とχ2検定」解説はクロス表の検定の部分にある.
超幾何分布
壺の中の赤玉と白玉を取り出してもとに戻して試行を繰り返す場合(ベルヌーイ試行)の確率は,2項分布の確率になるが,戻さないで試行を繰り返すと超幾何分布の確率になる.超幾何分布の場合はいっぺんにN個同時に取り出す場合と同じである.壺の玉の例から分かるように,2項確率は,玉の出現確率(玉の割合)を試行回数掛け合わせることと,どの玉が選ばれるかの組み合わせの場合を掛け合わせることによって計算され,超幾何確率の場合は,全体からN個を選ぶ組み合わせと赤玉である組み合わせなどから計算される.玉の数が多くて取り出す個数が少ない場合には,戻しても戻さなくてもほとんど差がないので2項確率と超幾何確率は近くなる.統計的仮説検定では,分割表の周辺度数を固定したときのセルの度数の取りうる場合の数は超幾何分布として計算でき,有意性の検定は,得られた分割表が,帰無仮説に従った偏りの程度(超幾何分布のすそからのパーセンタイル)を有意水準と比較する.
直和法による実験計画
コンジョイント測定や官能検査実験などにおいて,要因が多い場合には,すべての要因を考慮した実験ができないことがある.その場合,交互作用などを考慮して要因を2群,3群に分けて別々に直交要因実験を行う.予測のための推定値を共通にするために,各要因群には,共通した要因を入れておいて,測定値を最終的に調整する必要がある.極端な場合は2要因または3要因実験に還元することができるが,心理実験の場合には,実験条件の均一化(他の条件を一定にすること)が難しいので,できるならば多くの要因を加味した実験を行った方がよい.逆に,多くの要因を含めても,評価には線形的な効果が期待できない可能性もあるので,実験内容によって判断しなければならない.
直交コーディングorthogonal coding
カテゴリー変数を数量的な分析をするときに,変数として表現する方法は,01型のダミーコーディング,効果コーディング,直交コーディングなどがある.3つのカテゴリーの場合,2つの変数として表現できる(ランクが2)が,カテゴリーの意味を重視する(1,0),(0,1),(0,0)という表現法のダミーコーディングが最も多く利用され,数量化1類,分散分析の表現に用いられる.ダミーコーディングはカテゴリーのウェイトはそのまま表現できるので便利であるが,変数間に相関があるので,交互作用を取り扱うような変換には不向きである.交互作用を表現するには(0,0)の要素を(−1,−1)を使用する効果コーディングが便利である.直交コーディングは,変数間に相関がないようにコーディングする方法で,3カテゴリーの場合,1つのカテゴリーと他の2つのカテゴリーを区別する変数と,一つ目で区別できなかった2つのカテゴリーを区別する変数の2つの変数で3つの識別ができるようにする方法である.ダミーコーディングでは,変数がカテゴリーを表現しているのたいして,直交コーディングは変数が直交する2群の差異を表現している(線形対比).分散分析の多重比較に利用することもできる.直交コーディングに用いられる数値は,平均が0になるように1以外の数値が用いられている.ヘルマートの直交行列を用いると自動的な分析手続きには便利である.3カテゴリー2変数は,基本的に平面を形成するので,分散分析や重回帰分析,判別分析,その他,説明率を問題にするときには,同一平面を形成する2つのベクトルは同じ効果をもつ.したがって,コーディングの方法は無数に定義できるもの中からので,もっとも都合の良い表現法を用いればよいことになる.詳しい内容は,「A-55重回帰分析の利用法」近刊5000円参照.
直交表
コンジョイント測定や官能検査実験などにおいて,ほとんどの交互作用がないとすると測定回数を少なくして実験を行うことができる.要因が直交しているということは,一つの要因の水準(官能検査の評価したい製品やコンジョイント測定の設定した価格水準など)に他の要因が均一に作用していることを意味しているので,平均値の差を取ることによって他の要因効果を除くことができ,水準間比較が簡単にできる.複数の要因について,どの要因をとっても,その要因の水準に対して,他の要因の水準が同じ数だけ組み合わされた場合のうち,最も小さい場合を表の形に表したのが直交表である.要因の水準数が揃っている場合には,少ない数の測定でも直交要因が実現するが,水準が不規則的であったり,多かったりすると測定回数が増えてしまう.測定回数を少なくするには,直交表に疑似水準の割り付け,要因を組み合わせ,直和型実験,殆直交表の利用などがあるが,要因が直交しない場合には,分析法によって要因効果の勾配を推定する必要がある.
調整法method of adjustment, Herstellungsmetode
明るさや長さなど,評価対象(標準刺激という)と心理的に等しく感じる大きさを,実験装置を調整することによって測定する.一般に,周囲の状況が変化すると,単純な長さであっても,等しく感じる長さは微妙に異なって感じられるのが普通であり(錯視図形など),その量を測定するときなどに用いられる.恒常法,極限法(極小変化法)などとともに,心理物理測定法の基本的な測定法の一つで,測定の歪みが起こらないように手続きが確立されている.人間の知覚機能を研究することに利用され,応用的には,ほとんど利用されていない.
つり合い型不完備ブロック計画( BIBD)balanced incomplete block design
実験の目的になっている測定を同一の条件下で行うことが難しいときには,実験をブロック化して,ブロック内で一通りの測定を行う場合を乱塊法という.官能検査の場合のように刺激の数が多くなったり,刺激の管理が難しくなると,乱塊法実験(完備型実験)ができない.そのような場合,実験の目的ではない実験の制御要因であるブロックの影響が,目的の要因に均一に作用するように努力する.2つの刺激が同じブロックで実験されることを会合というが,すべての刺激対について会合が同数になるとブロック要因が均一化していると考えられ,釣り合っているという.このような計画を釣合型不完備ブロック計画という.ブロック計画は農場での品種などの要因効果を確かめるために考え出されたが,官能検査などの心理実験でもよく利用される.評価者をもう一つのブロックと考えて,2方制約型ブロック計画を立てることもあるが,評価者の人数制限,病気などの発生,またブロック数をあまり多くできないなどの制約のために,ブロック要因(測定日など)が均一になるように,できるだけ釣り合うように工夫した計画を立てざるを得ないことが多い(一部釣合型不完備ブロック計画).
ティーンズの価値観
1990年代前半に行われた調査からティーンズのタイプ分けをした事例.「J-05ティーンズの趣味・行動パターン」はデータが古いのでそのまま使えない.
t検定t test
統計的な仮説検定法の一つ.2つの平均値の差が偶然か否かを判定するときに用いられる.正規分布をする2つの変量(男性と女性の身長の分布など)の差の分布は,母集団の分散が分かっているときには正規分布を用いることができるが,母集団の分散を標本(得られたデータ)から推定した値(不偏推定値)を用いるとt分布になる.標本から,平均値の差の検定をするときには,t分布の確率を用いる.
t表(tのパーセント点の表)
一般に,t検定のときの確率を計算することができない場合に,t表を用いて有意かどうかを判定する.よく用いられる5%や1%についてのtの値をデータ数(自由度)ごとに一覧表にしたもの.
データ分析法(統計学)
統計的分析をするときの基本的な考え方(科学的な推論,要因配置,データイメージなど)を解説.後半はコンサルタントの作業分担の仕方などの実務を解説している.「A-06 データ分析法」(統計学).
データ変換
データの分析ソフトが異なっているために,ソフトに合わせたデータ形式に変換して分析する.EBCDICコードやアスキーコードなどの計算機内の表現形式の違いだけでなく,パソコンで使われているアスキーコードであってもソフトウエアによって,データの形式が異なっている.ソフトウエアはそれぞれ特徴をもっているので,特徴を生かした独自のデータ形式を使っている.基本文字の情報のみを表現したのがテキスト形式であり,ほとんどのソフトウェアはテキスト情報のみを書き出せるようになっている.文字の区切りにカンマ(,)を用いたり,タブを用いたり空白(スペース)する.区切り記号を用いないで縦横を整列させ空白に半角スペースで埋めることもある.データを適当な大きさでまとめて,レコードを作ることもある.ワープロでは1レコードは1行に対応する.行の区切りは,FFコード(ラインフィード)とCRコード(キャリッジリターン)を入れることが多いので,ほとんどのソフトウェアは,FFとCRはイメージ的な改行と一致するように作られている.統計分析では,テキスト形式のデータ並びやエクセルワークシートのような表に並べたれたデータを分析可能な形式に並べなおしたり,一部分を取り出すことが多い.具体的には,左詰めに入力された多重回答項目を01形式に変換したり,調査の回答順に並んだデータを特定の項目順に並べなおしたり,回答者数の少ないカテゴリーをコミにして新しいカテゴリーを作ったり,年齢のような実数をいくつかのカテゴリーに分類したりする.
テキストマイニング
テキストデータを掘り起こすこと.文章のデータを統計的に分析する場合にも使われることがある.
適齢期
無料ゲームソフト。
デザインイメージ評価
パッケージデザインなど一般消費者のデザイン要素についてのイメージ評価を測定する方法.基本的に多数の評価の項目によって,評価した結果を空間的に位置付ける.多変量解析をしないで,既存の空間に位置付ける方法(テスト形式,外部分析)と,その都度分析をして,選択された評価対象(イボークトセット)をバランス良く配置させる方法がある.
デルファイ法
問題となっている領域の専門家を調査して、その結果をまとめることによって予測を行う方法.専門家への調査を系統的、数量的に行うような性格をもつ.ほぼ妥当な予測が得られるが,意識調査なので、流行的な見方になる場合がある.一般的な研究調査と同様、他側面からのアプローチと別の情報からの予測と併用することが必要である.
展開法unfolding method
複数の刺激間の距離や類似度のデータから、刺激の尺度値(座標値)を求める方法が、心理尺度構成と言われるが、多次元の空間内の尺度値(座標値)を求める場合は、MDS(多次元尺度構成法または多次元尺度法)と言われる。一般に、類似度行列の行の要素と列の要素が異なった刺激の場合(2元2相データと言われる)の尺度構成法が展開法と呼ばれている。距離は、尺度上の左右どちらでも同じ数値で表現されるが、複数の刺激との関係から、刺激を右や左に分けていく(展開する)というイメージから展開法と名付けられている。クームの展開法、シェーネマンの計量的展開法などがある。空間布置が決まっている刺激との類似関係を測定して(行列の片方の要素の尺度値が決まっていること)、展開法的な分析をする外部展開法もある。最近では、非対称行列の関連度の分析として、ベンゼクリのコレスポンデンス分析、正準相関分析などが、展開法との関係で取り上げられることが多い。
展開法unfolding methodとコレスポンデンス分析との関係
類似性のデータについて、行要素と列要素が異なった場合の数量化する(尺度値を求める)方法であることから、コレスポンデンス分析は展開法の一種であると言える。ただし、コレスポンデンス分析は、行要素と列要素を対応させるという目的があることから、行と列とが異なった集合の要素である場合の分析法として考えられたので、共通尺度が標準得点になるので、空間が測定値の単位と原点とは異なっていることを前提としている多変量の解析法である。したがって、行要素と列要素とを対応させるためには、標準化された後の尺度値が用いられる。クロス表の場合、ポアソン分布を想定して、全体水準、列の主効果、行の主効果を除き、行要素と列要素の関連性の部分のみを取り出して(カイ2乗統計量)、次元縮小の分析を行う(主成分分析)。展開法は、行要素と列要素との関連性を直接測定したと考えるので、測定値そのものを使ってそのまま尺度値を求める。したがって、展開法の考え方では、非対称のデータ行列の数値がそのまま尺度値に表現されるが、コレスポンデンス分析では測定値そのものの傾向ではなく、関連性行列(交互作用に当たる)が次元縮小の分析対象になる。
店舗評価モデル(当社の分析システム)
既存の店舗データの評価結果から構成された方程式によって,店舗条件によって,予想される来客数や売上高を計算するシステム.要因のカテゴリーウェイトを計算しておいて該当する要因条件の数値を出力する.設計段階でだいたいの売上などのだいたいの位置づけが分かるので便利な反面,考慮されない要因が大きく作用すると予測を誤る.考慮されない要因とは,流行や経済要因などの外的状況のほか,地域のもつ固有なイメージなどであり一般化しにくい要因である.
同一母集団からの比率の検定
調査や実験などおいて,一つの質問項目の「はい」「いいえ」の割合の差を検定するような場合.別の項目の差は対応のある比の差の検定,性差など別の集団間の比の差などとは検定法が異なる.「はい」「いいえ」の差は,帰無仮説は50%の回答率になる.無限母集団なので,データを戻す戻さないの問題はなく,2項確率が使われる.無限母集団に対応した度数を大きな数字として入力すれば,近似的に超幾何分布の確率でも検定できる.計算は計算機があれば比較的簡単に計算できるが,Nが大きいときには正規分布の確率とほとんど一致するので利用できる.Nが小さい場合には,すでに計算されている2項確率の表を利用することもできる.回答カテゴリーが3つ以上の場合には,多項分布の確率になる.その場合,Nが大きければカイ2乗検定が利用できる.やはり,近似的に超幾何分布の確率でも計算できる.
トーガーソンの計量的MDS(Torgerson's metricMDS)
MDS(多次元尺度構成法、multidimensional scaling)は、刺激間の差異(距離)から多次元の尺度値を求める方法であり、変数間の相関関係を分析する多変量解析と異なっているが、同じような計算法になっている。それ以後に開発されたノンメトリックMDSが刺激間の類似関係の順序情報を分析するのと違って、トーガーソンのMDSは、距離を分析対象とする。トーガーソンは,原点が測定されていない刺激間の距離から、重心を原点とするベクトルの内積(スカラー積)に変換し(ヤング-ハウスホウルダーの変換)、さらに,エッカート-ヤング分解(特異値分解のこと・積和の主成分分析と同じ)によって座標値を求める方法を示した。主成分分析から分かるように、小さい次元のみを用いれば、残りの分散を誤差あるいは必要ない次元と考えて、小さい次元で近似することができる。3点間の相互の距離が矛盾した測定値になることが多いので(下の図参照)、定数を加算して、矛盾を解決しなければならない。計算法が特異値分解を基本にしていることから、その他の多くの分析法と共通点を持っているが、特異値分解の前の距離を測定すること、加算定数、ヤング-ハウスホウルダー変換という手続きが特徴的である。人間の多くの行動では、距離があてはまることが少なく、また、計量的MDSでは多くの次元を必要とすること(2次元の近似に無理があること)などから、応用しやすいノンメトリックなMDSが広く使われている。
統計的仮説検定
データに見られる傾向が偶然に起こったことなのか否かを判定する方法.一般的に,そのデータが同一母集団から抽出されて,本来差がないのに,偶然の離れたデータが選ばれたと考えて,そのような差が起こる可能性の度合を計算する.偶然にしては珍しいことが起こったことになったら,偶然とは考えないで異なった母集団から選ばれたと考える.極めて珍しいことの度合として5%または1%の確率を用いることが多い.偶然に起こったことを前提にするので,データを集めるとき,基本的に母集団からの無作為抽出することが重要な要件になり,データの数は多い方が検出力が高い.データが少ないと,偶然ではないという結論が出にくい.用いる確率分布はデータの性質によって異なるが,χ2分布,t分布,F分布,正規分布などのほか,あらゆる事象の起こり得る場合の数を計算して,生起した事象の確率を計算するような計算法もある.科学的な結論を出すときに,重要な役割を持つ基本的な考え方である.有意性検定と言うこともある.
動物のイメージマップ
動物のイメージについては,「J-17因子分析とコレスポンデンス分析によるイメージの測定法」A5判220ページ、5000円、参照(カラー印刷ではありません)。分散・共分散行列の主成分分析や因子分析については,「データ分析入門」A5判320ページ,5000円,参照.
特異値分解singular value decomposition
調査などによって得られた複数のデータベクトルは、直交した軸の座標値で表現することができる。空間の相対的な位置関係は、データによって固定されるが、座標軸は、一意に決められない。そこで、データの分散(2乗和)を最も大きく表現するような軸(主軸)を順次決めることにすると一意に軸を決めることができる。データ行列をこのような軸の座標値として表現することは、データを少数の次元によって近似して、変数ベクトルを空間的に表現すると応用的に便利である(上の動物の図など)。また、軸自体を潜在的な因子と考えて、顕現的な測定結果の原因を探るために有効な手段になる。このような直交した軸の座標値が固有ベクトルであり、軸が持つ分散の大きさが固有値になる。固有値に分散の大きさを反映させるので、固有ベクトルは、2乗和が1になるように正規化して(分散の大きさを除いて)表現することが一般的である。エッカート・ヤング分解と言われることもある。
相関行列のように分散(2乗和)を固有値・固有ベクトルで表現する場合(スペクトル分解)は、データ行列の片方の要素の分解のみを表現し、固有値が分散の次元での説明率を表現している。特異値分解は、2元表の場合に列方向、行方向の固有値(次元)が同じになることから(双対性)、データ行列を、行要素の固有ベクトル、列要素の固有ベクトル、固有値の平方根(特異値)によって分解する形式になる。特異値分解を、3元以上のデータに一般化した正準分解法canonical
decompositionが提案されている。
独立変数independent variable
予測をするときに予測する側の変数.一般に,条件を表現した変数なので,他の変数に依存しないという意味で「独立変数」と言われる.おもに,重回帰分析などに用いられる.そのほか,「説明変数」,「要因」などの用語は同じ意味に使われることがあるが,説明変数や要因という用語は,変数が独立(本来互い相関関係を持たない)していない場合に使用することができる.予測される側の変数は,従属変数,被説明変数,目的変数,測定値,外的基準などと言われることがある.
都市環境評価,都市生活の快適性,都市の分類(当社の分析システム)
住民の意識調査による都市の評価は通常のアンケート形式によって測定できる.人口(夜間,昼間)などの規模や施設の個数や広さ,森林農地などの面積,一人当たりの床面積などの住居指標など,統計資料に基づいた都市環境の評価が可能である.「J-34都市評価」など参照.
トレードオフ法trade-off method
コンジョイント測定の時,2つの要因の組み合わせた刺激に対して,一対比較形式で,どちらかを選ぶという課題を系統的に進めることによって,刺激を順序づける方法.ペアワイズ法とも言われる.当社のソフトはエクセル上で動き(画像提示可能),コンジョイントシミュレーションと連結されている.価格とブランドに特定した評価ソフトもある.(ブランドロイヤリティの価格による測定など)
Home 既刊書籍 会社概要 ア行 カ行 サ行 タ行 ナ行 ハ行 マ行 ヤ行 ラ行 ワ行 参考文献