Home 既刊書籍 会社概要 ア行 カ行 サ行 タ行 ナ行 ハ行 マ行 ヤ行 ラ行 ワ行 参考文献
最小2乗法 least square method
幾つかの測定条件(独立変数の値)に対応して測定値が得られ、直線的関係があるとき(y=ax+b),直線の位置を決めたい(下の図参照)。すなわち、a,bを求めたい。点が2つであれば連立方程式によって直線が決められるが、点が多い場合には、連立方程式では決められない。データに測定誤差があるので、2点から直線を求めるよりは、多くの点から直線を決める方がよい。目で見て、直線を引いて見ると、直線の例の図の右側のような直線を引いてしまうことが多い(主成分)。xには誤差がなくy方向のみ誤差があるので、直線の例の図の左側のような意味での真中に直線を引きたい。最小2乗法がよく用いられる。
この場合の最小2乗法(回帰分析)は、y軸方向の誤差が最小になるような直線であるが、別の言い方をすると、すべての点からの距離が最も小さくなる直線(近い直線)と言える。計算法は、測定値と未知数を含んだ理論値との差の2乗を合計し、その最小値を求める。2乗は2次式であるので、最小値を求めるには各変数ごとに微分して(偏微分)0に等しくなる場合(接線の傾きが0)である。変数の数だけ式ができ、すべてが0になる場合であるので、1次の連立方程式を解くことになる。右側の図の主成分は、両方の変数に誤差がある場合で、2次元(2変数)を1次元で近似するときの最小2乗解になる。
重回帰分析の場合(独立変数が多数の場合)、ベクトルで表現すれば、目的変数から、独立変数平面(空間)に垂線を下ろしたとき(正射影)、最小2乗解になる。独立変数空間への射影は、無数にあるが、垂線は1つだけであり、それは、最短距離(最小誤差)でもある。目的変数が複数あるときには(正準相関分析)、目的変数空間から独立変数空間への正射影によって、最小2乗解が得られる。その場合、2つの空間のなす角に正準相関係数が表現されている(方向余弦)。2つの空間のなす角は、空間をそれぞれ超平面で表わすと、平面の角度であり、交線と垂直でそれぞれの平面に含まれるベクトルのなす角でもある(下の図)。これらのベクトルは、それぞれの平面を構成する変数の合成変量であり、合成変量間の相関とも言える。これらの合成変量は、互いに垂線を下ろした場合、それは、最小2乗解として、2群の合成変量間の最大の正準相関係数を表わす。
最尤法maximum likelihood method
最小2乗法は、複数の測定値から中心的な位置や直線を決める計算法であるが、最尤法は、確率的に最も確からしい値を推定する方法である。推定値として確からしさを手がかりにすることは重要なことである。ただし、測定誤差に正規分布を想定した場合には、最小2乗推定値は、最尤推定値(確率的に最も確からしい推定値)になっている。最小2乗法が、測定値の情報から推定値を求めるが、最尤法は、測定値に対して、確率的な確からしさ(確率分布)を想定して、その情報から推定値を求める。したがって、測定値の誤差に確率分布を想定しなければならない。計算手続きは、測定値に対応する確率(確率密度)をすべての測定値について掛け合わせて、測定値全体の確からしさを求める。掛け合わせるのは、独立した測定値の確率であるから、全体の確率は掛け算になる。確率には、求めるべき未知数が含まれているので、関数の形式になっており(尤度関数)、分布は固定されていない(下の図参照)。下の図では、分布を左右に動かして、3つの測定値の確率の掛け算値(尤度関数)が最大になる位置に分布を固定して、そのときの頂点の位置が推定値になる。正規分布以外の場合には、求める未知数(未知母数)は分布の最も高い所とは限らない。どの位置に分布を固定するかが最尤法の目的である。分布が移動すると、測定値の確率(縦方向の確率密度)の掛け算値は変化するが(尤度関数)、その最大の場合は、確率が最も高い値なので、最も確からしい場合と言える。その場合の未知数を決めればよいことになる。
具体的な計算では、掛け算の形式の尤度を対数に変化すると(対数尤度関数)、大小関係は尤度関数と変わらず,足し算の形になるので、対数尤度の最大値を求める。多変数の場合には,変数ごとに偏微分して、連立方程式を解くことになるが、非線形の推定値になることが多い。ほとんどの場合、分布として、指数型分布(正規分布、二項分布、ポアソン分布など)を想定するので、計算法に共通した部分が多い。
作業種の研究(弊社の研究課題)
就業環境の変化に伴い、作業員の適性を考えるとき,業種や職種とは別に,作業の道具(コンピュータなど)や人間関係の特徴などが重要になっている.この特性は,広い意味の人間の性格や能力の分類に近いので,人間の研究の一側面と言える.このような,作業分析をすることによって環境の設計や作業環境の整備が、快適性、生産性などの環境改善には必要なことである.
サーストンの一対比較法 Thurstone's pared comparison method
一対の刺激を特定の判断基準(好き嫌いなど)比較して,「はい」の回答割合から,尺度得点を求める.心理尺度(判断尺度)上で,刺激が正規分布すると仮定して,「はい」判断の割合から,正規確率によって,尺度値を求める.微妙な回答率の差が尺度値の違いを表すので,弁別が明確な刺激の尺度値測定には使えない.測定結果をみると,ほとんど矛盾を感じないので,正規分布の仮定は,現実に近い仮定だと思われる.測定値を得るために多くの被験者や多くの測定値が必要なため,実用的にはあまり使われない.一対比較法では,結果を評定して間隔尺度とするシェッフェの一対比較法や恒常和法(コンスタントサム,チップゲーム)の比率評価法,評定値を倍数判断結果として分析するAHP型の一対比較法などが比較的よく利用されている.サーストンの一対比較法のロジットモデルについては、「重回帰分析の利用法」データ分析研究所(2004.10刊)参照。→「ブラッドレイ・テリー・リュースモデル」参照。
3元データ 3-way data
デ−タを並べたとき、3次元構造に表現されるデータを3元データという.一人の評価者が、いくつかの製品を複数の項目で評価したデータで、すべての評価について対象と項目が共通している場合には、3元データになる.相関行列が、複数個ある場合であり変数が共通している場合には、3元データになるが,相関行列の場合には行と列が同じ要素になるので2相データになる.3元データ特有の分析モデルがいくつか提出されている。3相因子分析、INDSCALなど参照。
3相因子分析 three mode factor analysis
一人の評価者がいくつかの評価対象について,いくつかの評価尺度(項目)によって評価したデータは,3相データと言われる.評価尺度(項目)の因子のほか,評価対象の因子,評価者の因子というように,3つの相について,因子を求めることによってデータを要約することができる.分析結果は、理想的な評価者因子が理想的なイメージ因子尺度によって、理想的な評価対象の因子を評価した結果、というような解釈ができる。「コレスポンデンス分析の利用法」など参照。下の図では、ブランドのみ因子にしていない分析例である。ここでの説明では、タッカーの核行列を特に意識せずに因子によって要約された得点行列として応用している。.
3相因子分析と3元因子分析three way factor analysis
本書では、3元データの3つの相を別々に因子分析する場合を3相因子分析と言い、3つの相を一つの因子空間に表現する場合を3元因子分析と言っている。3元因子分析は、基本的に、データが3つの相の類似関係を表現したものである必要がある(3重クロス表など)が、3相因子分析の場合には、尺度×対象×評価者などのプロフィールデータ(評定尺度など)が一般的に分析される。この区別に従うと、下記の3相コレスポンデンス分析は、正しくは3元コレスポンデンス分析になり、3相主成分分析は3元主成分分析になるが、本書では、誤解のない場合には明確に区別していない。また、この考え方からすると、INDSCALのモデルは、3元因子分析(3元主成分分析)の一種になり、3つの相のうち2つを一致させて、同一空間に刺激と評価者の2つの相をマッピングする特殊な場合になる。
3相コレスポンデンス分析 three mode correspondence analysis・3元コレスポンデンス分析
通常のコレスポンデンス分析は,2つの相の要素(行要素と列要素)を対応させて空間上に表現する方法であるが,3相コレスポンデンス分析は,異なった3つ相を同一空間上に位置付ける方法である.たとえば,ブランド所有率が属性別、価値観クラスター別の集計された3重クロス表を分析すると、ブランド、所有率の高いクラスター、クラスターの属性が同一空間にプロットされる。3相コレスポンデンス分析は、解釈が難しくなることが多いが、同じ3相のコレスポンデンス分析である外部3相コレスポンデンス(相の追加法)の方が解釈しやすいことが多い。また、3元データについては、第3相目の要素を条件として、同一空間に条件別のプロットができ、点の移動として解釈できる多重コレスポンデンス分析が使いやすい。 ここで取り扱う3相因子分析が、特異値分解(固有値・固有ベクトル)を求める操作を組み合わせて計算するのに対して、3相コレスポンデンス分析は、特異値分解をN元データに一般化した正準分解を用いている。→正準分解canonical
decomposition参照。 対数線形モデルの交互作用項をタッカー流のコア行列を想定した3相主成分分析を適用するコレスポンデンス分析もある(Kroonenberg,1983など参照)。→3相主成分分析参照。
3相主成分分析 three mode principal component analysis・3元主成分分析
通常の主成分分析は、行方向と列方向の次元が同じなので、データ行列は、行方向の固有ベクトル、列方向の固有ベクトル、特異値(固有値の平方根)を用いて、特異値分解で表現できる。これを、3元データに一般化して、3つの方向についてのベクトル(固有ベクトルにあたり、正規直交ベクトルとする)と3元表の固有値にあたる数値(データの2乗和が反映される数値で固有値にあたる)によってデータを表現することができる(正準分解)。3相主成分分析は、3つの相modeを同じ次元空間に表現する方法である。ここでは、3つの相の得点を標準化して、互いに対応するように変換した3相コレスポンデンス分析として利用している。
タッカー系統の3相因子分析(Tucker,1966)においては、3つの相を同じ次元上で表現した場合場合を3相主成分分析と言える(3相因子分析は因子を比較的自由に決めて、核行列core
matrixによって因子間の関連性を表現するモデル)。また、ハーシマン(Harshman,1970)のPARAFACやキャロルとチャン(CarrolI&Chang,1970)のCANDECOMPは、本書でのモデルと実質的に同じであるが、本書では、固有値と固有ベクトル(特異値分解)を3元データに一般化している(一般的な固有値の合計は3元データ行列の2乗和に一致し、一般的な固有ベクトルは正規直交行列を想定しており、正準テンソル分解と言われている)。→3相コレスポンデンス分析、正準分解などの項目参照。
3相データであることの見分け方(3群の正準相関分析データと3相データとの違い)
(3側面データとの違い)3相データの特徴は,1つの測定値について,3つの属性がある場合になる.典型的な例では,測定値が「評価対象」「評価形容詞の種類」「評価する人」によって,測定されたような場合になる.これに対して,3つの相があるとしても,測定値が3つある場合は,1つの評価対象を異なった側面(相)から評価した場合であるので,1相データが3つあることになり,3変量データか3つの層のデータになる.測定値が複数ある場合のデータは,因果分析のような層別構造化モデルが適用されるのが普通である.
(分散分析との違い)3相データの場合は,形式的に,分散分析と同じ形になるが,分散分析とは異なって,測定値の単位と原点が測定値によって一致しないこと,相を形成する変数の相関関係を分析すること(情報縮約)を目的にするので,分散分析の目的とは違って,多変量解析になる.
サンプリング誤差(標本誤差)
母集団からランダムに標本を選んで平均値を計算したとき,ランダムであっても,偶然に大きい値を持つ対象ばかりを選んでしまうこともありうる.母集団の数値が正規分布などの確率分布しランダムに選んだとすれば,標本数が分れば,偏る可能性を計算できる場合が多い.現実のサンプルが偏っているかいないかは,分らないけれど,偏っているとしたら度の程度であるか,そのサンプリング誤差を算出できることが多い.比率や平均値のサンプリング誤差を計算する式がある(データ分析入門(既刊書籍)の第3章やその他の文献参照).真の値が分っている実験的な状況を設定して,実際にサンプリング実験をして見ると,ほぼ,理論式通りになる.単純無作為抽出ではなく,多段抽出法や,層別抽出の場合には,段階の内容や層別の内容が明確でないとサンプリング誤差は計算できないが,単純無作為抽出のサンプリング誤差は,サンプルの大きさに対する誤差のだいたいの値を示しているので,参考にすることができる.
3変数群の多変量回帰分析→多変量回帰分析(3つの群の場合)
3変数群の正準相関分析→多変量回帰分析(3つの群の場合)
CVM contingent value method
環境の評価法.環境を評価するとき、失ったときの損失額や、修復するときの負担額などを直接質問して,その価値の大きさを推定する方法.仮想的に状況を考えることになるので,仮想評価法と呼ばれる.具体的な問題がある場合には,政策コストと結びつくので,政策上分かりやすい測定法である.価値と金額が線形な関係にない場合,数理的なモデルを考えるとき,環境に対する価値の大きさなのか,金額に対する価値の大きさなのかによって取り扱いが異なってくる.具体的な政策などと離れた一般の環境評価の場合には,価格の意味の不安定性や環境の条件の統制の仕方によって結果が左右される可能性が大きくなる.
シェア予測
一般的に,マーケットシェアを予測する場合には,製品の嗜好度と価格や競合製品を考慮したマインドシェアの測定と,さらに,市場規模,ディストリビューション,知名率などの推定結果を用いる.ディストリビューションと知名率は,製品そのものの特徴ではないので,努力目標や現実的に決まってしまうことが多い.市場規模は,厳密には個人属性が関わるので推定が難しく,人口などの客観的な属性人数に一定の割合を掛けることによって推定しておく.製品嗜好とマインドシェアは実験や調査によって推定するが,現実の購入行動を正確に反映しないことがよく見られる.製品の特性などによるやむをえない原因だけでなく,実験状況が現実を反映しにくいような予測法など,予測法の本質的な問題と関わることもある.したがって,できるだけ現実に近いテストマーケティングなどを実施することもあるが,いろいろな可能性を想定した予測をするためには,実験レベルでの要因統制をしてモデルを構成した方が生産的な場合も多い.テストマーケティングは,実感的な結果が得られるが,条件統制が難しいので予測法としては難しい問題を多く含んでいる.
シェッフェの一対比較法と重回帰処理法
評価対象の一対比較をしたときの評価結果を「やや好き」「かなり好き」などのカテゴリーで表現させる。サーストンの一対比較法やブラッドレーの一対比較法のようにyes,noの判定から割合を計算するのではなく、カテゴリーにそのまま数値を与えて数量的に計算する。一般に、刺激の比較結果は、評価者にとって程度の大小を表現できることが多いので、比較的少ないデータから、順序効果などを検定することが可能であり、実用的な方法である(日科技連「官能検査ハンドブック」など参照)。新製品の味や使用テストなど順序効果が明確な場合によく用いられる。
カテゴリー数を多くすると、刺激範囲の端の部分の差異が小さくなってしまうというカテゴリーバイヤスが見られる(実用上はあまり大きな問題にはならないと思われる)ので、特定の目的以外は、カテゴリー数9,11などのように多くしない方がよい。カテゴリー数3などでは、評価者の知覚情報を十分に抽出していない可能性がある。そのほか、厳密な測定の場合、順序効果の非対称現象(時間順位誤差)が表現できないが、これは、カテゴリーバイヤスよりも小さな問題である。
新製品の使用テストでよく用いられるラウンドロビン調査の分析法として有効に利用することができる。
分析法は、「官能検査ハンドブック」などに詳しく紹介されているが、下の表は、評価結果を重回帰分析によって分析する場合(分散分析)のコーディングの例である(4つの刺激の比較の場合)。この方法のように、重回帰処理を行うと、次のような便利さがある。
@1人の回答者がすべての対を比較するような場合も同じ方法で計算できる。
A主効果のみならず、要因が2つ以上ある場合(食品の味と大きさ、価格などを見たい場合などの一対比較)にも、比較的簡単に適用できる。
B性別、年齢別などの層別要因がある場合、その要因効果を分析することができる(交互作用などはその都度必要なものだけ定義する)。
C欠測値がある場合や要因が直交していない場合など、推定しなくても検定することができる(重回帰分析の偏回帰係数と同じ検定法になる)。
時間の概念
時間は、物質の変化や移動を表わす仮説的構成概念であるが、日常的な感覚では、物質に変化や移動速度は、物質に関わらずほとんど同じに感じるので、実体のように安定している。実際には、同じ物質でも、周囲の引力や電子の測度に近い移動などによって、物質の変化(分解や融合)は異なっているのが普通であるが(従って時間は一定にならないのが普通であるが)、日常の人間の感覚では、そのような変化の違い(時間の状況による違い)には気付かないし、実質的に、老化や時計の進み具合の違いは、ほとんど、一定と考えて差し支えない程度である。その意味で、時間は、最も安定した構成概念であるので、日常的には実体として利用されることが普通である。極端な状況では、人間に想像できるように時間が異なる状況があることが挙げられている。物質の移動速度の上限が通常の上限より小さくなる場合の時間など。
色彩イメージ
イメージの測定法(J-17)(既刊書籍5000円)の色彩の言葉のイメージがある(カラー印刷ではありません).下の図は,色を貼り付けた場合.
時系列データの分析
当社では,時系列データの分析では,@マルコフ過程モデル(購入者の推移,人口の推移,職業の推移など),Aポアソン過程モデル(人口の推移,死亡者の予測),B分散分析モデルと回帰モデル(トレンド,季節変動,経済社会要因など),C自己回帰分析と移動平均,D特定事象のモデル構成予測(消費者行動の状態変化など,保険加入者の予測),E流行を加味した製品の寿命モデル,などを取り扱っている.
刺激・項目の同時マッピング
当社では,@コレスポンデンス分析によるマッピング,Aノンメトリック展開法モデル(初期値にコレスポンデンス分析結果を用いたMDS分析),B外部展開法による分析,C因子分析や主成分分析による因子得点と因子負荷量ベクトル,DMDPREF系統のマッピング,などの表現法が可能.
嗜好地図 preference map
嗜好データの内部の情報のみによる弁別によるマップ(内部分析)と既にある対象のマップに嗜好傾向を重ねる方法(外部分析)とがある.測定点の最も近い点による三角形の辺の分割を基本にした自動地図作成法があるが,応用上は,最終的に目で見て確認する必要があるほか,手作業によるスムージングが最も利用しやすい.データが大量にある場合には,2次元の分布によって地図を作成することができる.図は,嗜好マップを3次元の地図のように表現した場合と2次元の等嗜好線(等高線、等好線)で表現した例である。
自己回帰
連続して起こる事象が系列とは無関係に起こり、系列と測定値を規定する要因が無関係であるとすれば、測定値(n)とそれに続く事象(n+1)とは相関を持たない。したがって、時系列のデータを一つずらしたデータを対応付けて相関をとると時系列的の効果を検証することができる。官能検査のような人間の知覚や感覚の実験においては、試行が独立であることはなく、必ず、以前の試行の効果が見出される。人間の時系列効果には、刺激自体の残存効果のほか、同じ回答を繰り返さないというような反応行動の時系列効果、残存効果が記憶されることによる系列効果などがあることが確認されており、重さの実験では、2試行前(n-2)までの刺激効果と回答効果があることが報告されている。
指数型分布族 exponential family of distributionsと人間の行動
二項分布,ポアソン分布,指数分布,正規分布などは,密度関数が,f(x)=c(q1,・・・,qp)exp{t0(x)+Σqjtj(x)}(qは自然母数を表わす)の形で表現でき,指数型分布族としてまとめられ,共通した特徴を持っている.自然母数は,分布を決めるために必要であるが,分布の特徴(二項分布の場合割合の決まった2つの状態から復元して何回かランダムにサンプリングするという特徴)とは無関係に決められるので(十分統計量を持つ),分布全体に及ぼす要因効果を見るときなど便利な特徴となる.(自然母数の特徴を利用したロジスティック回帰分析の説明など)
人間の行動では,マイナスのない度数の現象に利用しやすい分布が多いこと,指数の中の演算が人間の行動を記述するのによく当てはまること,などから,重要な分布である.商品の1割引,2割引などの表現は,絶対金額とは別の指数の中での表現であるが,自然な形で表現されていることは,指数的な行動が人間を記述することに有効である事例と言える.(2003.4)→「対数曲線」の項参照.
指数関数exponential function
指数関数は、y=ax(aは正の定数)の形で表現できるが、人間の行動に関係する関数は、指数関数の図を成長曲線(学習曲線)と言われる上限(飽和値)を持つy=1−e-λx(λ>0,eは自然対数の底)の形で表される.これは指数分布の累積確率分布関数(CDF,cumulative
distribution function)になる.指数関数は比率と関係が深いので行動を記述するモデルとしてよく利用される.→成長曲線参照。
指数分布・累積指数分布関数・学習曲線
指数分布の確率密度関数は,f(x)=exp(-λx)のように表現でき,累積分布関数は,y=1-exp(-λx)となる.累積分布関数は学習曲線として知られている.モデルとして離散量的に捉えると,密度関数が「普及量(学習量)」(マイナスで言えば劣化する量)を表わすとすると,累積関数(学習曲線)は積分値であるから,それまでの普及量の合計にあたる.密度関数は,累積関数の導関数(微分)であるから,その時点の普及の速さを表現している.
密度関数をもう一階微分すると,f'(x)=-λexp(-λx)となり,f(x)/f'(x)=-λのように定数になる.これは,普及(学習や劣化)の早さが,徐々に遅くなっていくことを意味している.別の言い方をすると,一定時間の普及量(速さ・効率)が,時間が経つに従って一定の割合(λ)で減少していくことを表現している.
よく利用される例で言えば,広告による商品の認知度が,時間が経つに従って,効率が悪くなっていくことを示し,その割合は,伝達される情報が一定であるとしたら,既に知っている人に情報が伝わる可能性が,その人数に比例して多くなる(効率が悪くなる),という現象に当てはまる.このような現象があるときには,学習曲線がよく当てはまるはずである.実際のデータを見ると,劣化(効率の低下)の傾向は指数分布よりも急なカーブを描くことが多い.現象的にはワイブル分布のパラメータ(ベキ指数)によって記述できるが,実際には,状態を移行する要素は,内的な原因(興味や能力など)によって初期の普及率と後期の普及率では質が異なっていると予想される.このことはλが一定ではないことを意味しており,個人差の問題だけでなく,その交互作用である情報内容の興味,新しさ,インパクトなどが,欠かせない要因になっていると思われる.
時代変化
コーホート分析において、調査時点の効果を表す。線形モデルの場合、どの世代においても、どの年齢においても一律に作用する要因効果として捉えられる。コーホート分析の項参照.
実験計画 experimental design
解説書「T-02実験計画・調査計画」では,おもに,官能検査における実験計画を取り扱っている.人間を対象にした実験の特徴と順序効果などの恒常誤差の取り扱い,QDA法,一対比較法,要因計画と直交表,BIBD,分割法,直和法,製品使用実験調査,分散分析法と多変量解析法,ノンパラメトリック検定など,とくに人間を対象にしたときに考慮すべき問題点を重点的にした実験計画の基本的な問題を解説している.
シミュレーション
実際場面に即して装置や状況を作って,その装置を自由に操作することによって,実際の場面を模擬すること.航空機操縦のシミュレーションでは,ほとんど現実と同じような状況を作ることができると言われている.消費者行動の統計的分析においては,適当な数理モデルを用いて購入行動を表現し,調査によって数理モデルのパラメータを推定することによって,実際の人間行動の代わりに数理モデルを用いて行動を予測することができる.コンピュータの中に多数の数理モデルを想定し,新製品などの特徴を提示して,購入者の割合をカウントする.たとえば,消費者を正確に代表した調査サンプルに,製品の特徴要因についてのウェイトを測定しておき,特性の異なる2つの新製品を提示すると,ウェイトの違いによって調査サンプルは異なったものを選択することになる.その選択の割合が,新製品の選択の予測値である.統計的なシミュレーションの信頼性は数理モデルの妥当性とサンプルの妥当性(代表性)に依存するが,数理モデルは焦点をしぼって単純な形にすることが多いので,調査サンプルの妥当性が結果の良し悪しを大きく規定することになる.
写真によるイメージ分析・景観調査
評価が可能な範囲で,多くの刺激を用意できるほか,実験計画的な要因配置を含んだ刺激写真を設定することができる.分析は,多変量分散分析を適用する場合もあるが,多変量分散分析の正準因子を用いるよりも,評価項目の因子分析による直交因子を用いる方が,応用しやすい結果になることが多いので,因子分析,マッピング,要因分析の手順で分析することが多い.写真刺激の要因のウェイトを求めることができれば,要因を変化させたときの多次元(因子)評価の予測が可能にある.
重回帰分析 multiple regression analysis
購入意向を目的変数(従属変数)とするとして,製品についての多数のイメージ得点を予測変数(独立変数)としたならば,その予測式を作ることができる.線形予測式を重回帰分析によって構成した後は,予測変数のみが分かれば,目的変数の値を計算することができる.予測式を作ったときの精度として,重相関係数,決定係数などがあり,予測変数の係数を偏回帰係数という.重回帰分析の応用上の目的は,2つに分かれる.一つは,本来,独立変数が測定条件として相関関係(因果関係など)を持たないが,実験や調査の都合で,見かけ上、相関を持ってしまう場合には,重回帰分析によって独立変数の相関を除いたときの影響力が用いられる.この場合には,偏回帰係数はそのまま解釈するのがよい.もう一つの応用ケースは、独立変数間にもともと相関関係がある場合であり,説明変数が多数のイメージ項目などのときにはこちらにあたる。その場合,偏回帰係数は,測定された変数のウェイトとは別のものになる.すなわち,他の変数を一定に保ったときのウェイトになり,本来相関を持つとされる独立変数が相関を持たないときのウェイトになるので,その係数を、説明変数のウェイトとして解釈することはできない.良いイメージ項目の係数がマイナスになることもあるが,これは,他の変数を一定にすれば確かにマイナスになることを意味するが,そのイメージ項目を上昇させる相関を持つ他の変数も同時に変化するので,相関を持つ他の変数を経由したウェイトをすべて合計すると,良いイメージ項目はプラスに働いていることになる.このような総合的な影響力は、単相関係数の方に反映されているので,第二の重回帰分析の独立変数の影響力を見るには単相関係数を用いた方がよいことが多い.したがって、重回帰式は予測に用いるときには,誤差や不安定さの問題を考慮しなければ,良いイメージ項目のウェイトがマイナスで合っても、そのままで予測する方が精度は上がる.この意味で、第一の適用の仕方(重回帰分析)と区別して、「重相関法」と言われることがある。第一に適用法において、独立変数間の相関が大きいと,小さな誤差でもウェイトの推定値が大きく変化するので,分析結果の信頼性が低くなる。これは、説明変数間に相関がある場合の高い相関とは別の問題であり、多重共線性の問題と言われる。多重共線性の問題か説明変数間の相関関係の問題か、いずれの場合でも、相関の高い独立変数はどれかを代表させるか,因子を構成してから重回帰分析をする方が安全と言える。
重回帰予測
予測には様々な方法があるが,基本的に線形の方程式のパラメータを重回帰分析によって推定したとき,その予測を重回帰予測という.
主座標分析
類似度行列から行列要素の座標値を求める分析法.類似度行列から,重心変換をおこなって固有値・固有ベクトルを計算する.トーガーソンのMDSと同じ方法.
主成分回帰
従属変数が複数ある場合に回帰予測をしたいとき,個々の従属変数ごとに回帰分析を適用すると,従属変数間の相関があるために,同じ様な分析を繰り返している印象があり,どの従属変数を重要視してよいのか分からないことがある.本来,重回帰分析を適用する場合には,従属変数が目的変数として安定しているときに用いるが,調査データなどでは,従属変数が次の予測のための中間的な変数である場合が多い.したがって,従属変数全体としての寄与度や予測力を知りたいという目的になる.その場合,従属変数の主成分を計算して回帰分析を行うと従属変数の相関関係が除かれて全体の寄与度が理解できる.主成分は独立変数と無関係に求められるので,独立変数が実験計画の要因配置行列(デザイン行列)のように明確に計画されている場合には,正準相関分析を適用する方がよいことが多い.従属変数の次元が多数であり因子の意味を重要視したいときには因子分析による因子の抽出と回帰分析が薦められる.正準相関分析,共分散構造分析など参照.
主成分分析 principal component analysis
たとえば,身長,体重,胸囲などの人体計測値は,相互に関連性がある.これらの変数に主成分分析を適用すると,身長,体重,胸囲のどれとも一致しないが,どれとも関連性の強い主成分を得ることができる.主成分は,測定値の単位を共通にして複数の測定値を平均したようなものである.正確には,各測定値を平均からの偏差にしてバラツキを一定に調整し,加重平均したものである.加重(ウェイト)は3つの測定値をもっともよく説明できるように決められる.身体計測値の場合,第1に見出される主成分は「からだの大きさ」を表すものである.ウェイトは大きさと関連性の高いものほど大きくなる.一般に,からだが大きければ,身長も体重も胸囲も大きい.しかし,体重には,別の要素が含まれている.体重のうち,からだの大きさから予想される体重よりも重ければ,太っているといい,からだの大きさから予想される体重より少なければ痩せているという.すなわち,体重の測定値から,身体の大きさ要因(第1主成分)の要素を除き,身長や胸囲についての同様に大きさ要因を除くと,残りの測定値から共通した主成分を取り出すと第2主成分を求めることができる.身体計測の場合,太り具合痩せ具合が第2主成分になることが多い.第2主成分の得点は,大きさ要因を除いているので,純粋の太り具合の得点と言える.相関行列の主成分分析では,互いに独立した主成分を(変数−1)個(ランク)取り出すことができる.様々な波長の要素が含まれている音や光のについて,純粋波長の要素を取り出すスペクトル分析も主成分分析と同じ方法である.
順位の一致性検定
多数の人の順位付けの結果が一致しているか否かの検定.一致していない場合には,グループ化などの考慮が必要となる.→ケンドールの順位の一致性検定など.
順序効果 ordinal effect
人間を対象にした実験の場合,必ず順序効果を考慮する必要がある.順序効果には,系列位置効果(1連の実験試行の中の実験位置,疲労,慣れ,環境変化などと関わる)と系列順位効果(同じ刺激が連続すること)に分けられる.とくに系列順序を統制することが必要である.シェッフェの一対比較法では,逆の提示順の実験をして積極的に順序効果を取り出している.一般的にはすべての組み合わせを作ることがよいが,実験規模による制限などがあるので,できる限りブロック内でのランダム化を行えばよい.当社ではランダム化と順序の組み合わせ集計を実験前に行って,偏りを調整している.実験を行う場合,作業員にとっては,慣れないこともあり,ランダム提示は大きな負担になっており,提示の間違も多い.
順序尺度 ordinal scale
測定された数値は,数学的な特性をそのまま持っている訳ではないが,近似的に数学的な演算を適用することが許される.人間の行動(言語反応を含む)を測定した数値は,備えている数学的な特徴によって,名義尺度値,順序尺度値,間隔尺度値,比尺度値などに区別される.名義尺度は,大小関係のない分類値で,学級のクラス分けに1組,2組としたような場合である.1組と2組を入れ替えても構わないし,A,Bでも,い,ろ,はでも本質的に変わらない.順序尺度は数値の間隔には意味がなく,大小関係のみ意味を持つ数値.1と2は少しの差でも大きな差でも同じ順位になる.間隔尺度は数値の間隔に意味のある数値で,原点には意味がなく仮に決めた場合である.比尺度は,原点に意味のある間隔尺度値である.数学的演算は,基本的に比尺度で行われる.したがって,測定値が間隔尺度であったり順序尺度であったりするときには,平均を原点にしたり,順序情報を越えないような自由な比尺度値を順序尺度解析結果に用いる.
順序尺度と順位付け尺度の違い
順位のあるカテゴリーに評価対象を分類する場合を順序尺度値と呼ぶことにする.5段階評定尺度や格付け評価などはその例である.一方,評価対象を第1位,第2位というように順位付ける場合を順位付け尺度と呼ぶことにする.基本的に両者は大小関係のみが問題になるので,データに含まれている情報は同じように感じるが,実際の応用的場面においては,明らかに異なった情報が含まれており,意味が違う.順序尺度の場合は,対象の応用的なウェイト(損失度など)は,すべて等しく,尺度値が順序になっている.順位付け尺度は,応用的なウェイトそのものを表現したものであり,尺度値はウェイト(損失度など)そのものを表現している.
したがって,順序尺度には,累積ロジスティック関数などの適用や田口法の累積処理が可能であるが,順位付け尺度には,上位のみが重要であるので,対称型分布の累積的処理は不適当であり,指数分布曲線のような関数形が適している.購入行動などは,上位のみが重要であるので,下位を重視しないような尺度に変換することが重要である.コンジョイント測定の順序付けデータなどでは,対称型の分布を用いるよりも,順位をそのまま得点化することの方が予測がうまく行く.さらに,常識的に行われているように,第1位に大きなウェイトを置く変換が必要である.当社では,順序付けデータについては,@初期値に指数分布曲線を利用したノンメトリック要因分析を用いたり,A下位の評価対象を順序付けしない方法(同順位扱いにする)を用いたりして,予測の精度を高めるようにしている.
順応水準 adaptation level
仮説的に想定される判断の基準点.ある商品の価格が「高い」と判定したとき,何の基準のない絶対判断であるが,判定者の意味からすると,製品の状態から予想される順当な価格を基準点にして「高い」と判定したと考える.その基準点を順応水準という.
情報量基準AIC Akaike's infomation criterion
AIC=-2×(最大対数尤度)+2×(未知パラメータの数).モデル式の適合度の基準として用いられる.数値自体は,基準化されていないので,複数のモデルの当てはまりの良さの比較に用いられることが多い.2乗誤差や重相関係数,相関比などもモデルの適合度に用いられるが,それらは,測定尺度の差異を元の定義されている.応用上は,何cmの誤差とか,何個のずれ,というように測定された単位によって予測誤差や適合度を表現する必要がでてくる.しかし,測定尺度が平均の左右で不変(単位が同じ)というような保証がないが多い.また,モデルが複雑のなると,異なった単位の測定値が,モデル式に含まれることが普通である.したがって,適合度を測定尺度値の違いによって定義することができないことになる.
本来,モデルの尤もらしさは,確率的な起こりやすさなどによってイメージされているのであるから,その意味で,測定尺度とは別のものである.尤もらしさを正確に表現するためには,起こり易さの確率的表現(確率分布,誤差分布な)が必要になる.事象の生起確率は,測定尺度とは原理的に無関係なので,連続変数でも離散変数でも構わず,各値に対する生起確率が定義されればよい.尤度はこのような起こり易さをもとに定義される.2乗誤差などがいわば,横軸の大きさで定義されるとしたら,尤度は,縦軸の大きさで定義されるので,横軸尺度は使わない.
情報量基準AICは,モデルの適合度を,尤もらしさによって定義されるので,確率分布(おもに,母数を固定しない正規分布などの指数分布族が使われる)が決まれば,線形モデルを含む広く適用することができる.しかし,応用上は,予測値ごとの個別の単位の差を用いなければ,意味が分らないことが多いので,近似的であっても部分的に分けて線形的な表現を用いるなければならなくなる.
新製品のシェア予測→「シェア予測」参照.
信頼区間 confidence interval、信頼限界、区間推定、信頼度(平均値について)
信頼度confidence level95%の信頼区間は、母集団の平均値が95%の確率で落ちると考えられる範囲を意味する。計算式は、次のようになる。99%の信頼区間は、95%よりも確実な範囲であるから、範囲はより広くなる。
標本平均値の分布は、母数の標準偏差が決まっていないので、確率変動する標本から標準偏差を推定することになり、正規分布をする平均値とカイ2乗分布をする標準偏差(2乗和)の比であるt分布によって定義される(標準偏差が確率変動しない場合には正規分布によって定義される)。したがって、信頼限界は、t統計量(確率変数)の尺度上で定義され、tから測定値尺度へ変換することによって、信頼区間が求められる。(下のt分布の式を変形すると、信頼区間の式が求められる。)95%の信頼区間の場合、上下に2.5%ずつの範囲があるので、t分布の2.5%点が使われる。相関係数や比率(パーセント値)などの信頼区間は、数値に上限や下限があるので、信頼区間は、点推定値について左右対称にならないのが普通である。
心理スケール psychological scale
物理的な尺度(長さのcmや重さのg,あるいは金額など)に対して,人間の行動に直接関係する尺度値を心理スケールという.心理スケールは直接観察できない仮説構成体であるが,音の大きさがエネルギー量よりもデシベル値の近いことなど,測定条件が適切ならばかなり安定した尺度であると言える.
心理尺度構成法 psychological scaling
人間の感覚量を測定する尺度を作る方法.多くは,刺激が物理量として測定されているので(明るさや重さなど),物理量と心理量との関数関係を取り扱うことが多いが,対応する物理量が特定できない心理量の場合もある.その場合,尺度構成をした後で次元の意味が明確になることが多いので,因子分析などの多変量解析と同じような目的で利用される.知能尺度では,クリアーされる課題の難しさの度合い定めたり,イメージ尺度の場合には同一次元として扱える項目群を定める作業などが尺度構成になる.
心理測定法(精神測定法)psychometrics
おもに人間の心理量(感じた量)を測定する方法.広い意味で考えれば,数量的な反応のみならず,順序,分類,あるいは言語報告なども測定に当たるので,客観的に収集されたデータはすべて心理測定と言えることになるので,用語自体の厳密な定義はあまり重要ではなくなる.物理的に同じであっても,人間が理解した結果が異なっていれば異なった行動が起こると思われるので,刺激とは異なった尺度があることを前提にしている.行動を予測する場合には,物理刺激では対応できないときには心理的な構造を想定することになる.
心理的原点(ゼロ点)
評定尺度や一対比較法などどんな場合でも,人間が感じている内容を,判断尺度に表現するときには,判断尺度の原点を想定していることになる.換言すれば,判断とは,原点を想定することと尺度値を決めることを意味する.一対比較などのように原点になる刺激を被験者に提示する場合は明確であるが,絶対判断のように,比較すべき刺激が提示されない場合では,心理的原点は,日常的な水準や実験系列によって構成されることになる.一つの食品を食べておいしさを評価するとき,「おいしい」といったときには,その被験者にとって,おいしさの中性点との対比によって評価がなされることになる.その中性点が,どのように分布しているのか,とか,どのように形成されるのか,というような問題は,製品開発のために重要であり,行動のメカニズムの解明にも重要な問題と言える.順応水準参照.
心理物理測定法 psychophysical measurement
特定の刺激(錘や長さなど)と同じ大きさの刺激を多数の刺激の中から探すとき,条件によって元の刺激と同じものが選ばれない(一種の錯覚).また,物理的な刺激の感覚を心理的な感覚に置き換えると,物理的な量がそのまま再現されるとは限らず,系統的な関数関係が見出される.ある刺激(標準刺激)と同じと感じる大きさを測定する方法として,代表的な方法として恒常法,極小変化法,調整法などはある.2つの刺激の比率を判定する方法には倍数判断,比率判断などがある.
数値的計算による推定法
例えば,最大値や最小値を求めるときや連立方程式を解く場合など,モデル式から演算や仮定によって解析的に求められない場合がある.その場合,具体的な数値が与えられたときに,求める値を計算する手続きを意味する.最も単純な方法は,応用上必要な精度(きざみ幅)で,可能なすべての場合を計算して,目的変数の値を比較することである(総当り法).その方法を系統的に行う山登り法,モンテカルロ法などもある.解析的に解けないにしても,目的変数の特徴がある程度分っている場合(連続しているとか微分可能,もとの関数の形が分っているとき)は,やや解析的な要素のあるニュートン法(多変数の場合はニュートン・ラフソン法)や最急降下法などがある.ニュートン法や最急降下法などは,初期値から出発して,目的変数を最適にする方向を求めて(勾配の低い方向あるいは高い方向,微分係数の値),最適値を求める.目的変数の値自体も解析的に規定しないで,その都度最適値を計算することと,未知数を求める手続きを交互に計算するEMアルゴリズムなどもある.得られる推定値は,概念的には近似解であるが,誤差が小さければ実用上,その計算精度には,ほとんど問題ない.問題点は,解析的に求められないのであるから,必ずしも最小値や最大値になる保証がないことであり,異なった操作や仮定から,保証を与えることになる.最尤法の場合には,指数分布族としての特徴を用いれば,数値的に求められることが保証される.コンピュータを用いることを前提にして,実用性の要請に答える方法である.解析的に求められる問題を数値計算法で求めることもできる.
数理モデル
数学的モデルともいう.人間の行動に一般的な数学的な関数を当てはめたり,行動のプロセスや基本要素に数学的な公理を当てはめたりして,演繹や推論によって現象を予測することがよく行われる.基本要素と規則のレベルで数学的なモデルが適用できるならば,予測が極めてスムーズにできることはかなり有効なことである.一般的に,単純な長さの足し算,引き算のような数学的規則は,厳密には実際の現象に当てはまることはなく,一つの数理モデルとして取り扱うことになるが,ほとんどの場合,誤差を無視できる程度に精度を上げることによって,数学的規則を使うことができる.
数量化1類
特定の製品の購入意向などの目的変数(外的基準とも言う)について,居住地域,性別,価値観項目など複数の項目から予測したいとき,数量化1類によって予測式を作ることができる.重回帰分析も同じような予測式を作るときに用いられるが,数量化1類は,予測変数が性別や居住地などカテゴリーで表される質問項目になっていることが特徴である.したがって,カテゴリーデータの重回帰分析と言える.解法は,カテゴリーを01データに直し,ランク落ちを防ぐ操作を加え,最小2乗法で解けるので,重回帰分析の一つと言える.数量化分析と言うときには,変数がカテゴリーで表される場合の分析法である.数量化1類の解析法は,分散分析として知られた分析方法の特殊な場合(交互作用を仮定しないこと)とも言える.
数量化3類
数量化3類は,変数がカテゴリーである場合に,カテゴリーと回答者(調査サンプル)を空間的にプロットするために用いられる.因子分析が,単位の異なる数量(身長と体重など)データのときに,変数と調査サンプルを空間的にプロットするために用いられるのと似ている.数量化3類の分析結果は,軸の回転をしないのが一般的なので,因子分析よりもむしろ主成分分析に近い.数量化3類は,項目と回答者を同一次元にのせて,回答したカテゴリーとそのカテゴリーに回答した人を近くに位置付ける方法であると言える.したがって,次元が十分であるならば,回答者の近くにある回答カテゴリーは,だいたい,その人が該当していると言える.ただし,データをそのまま分析すると,全体として該当者数が多い回答カテゴリーが結果に大きな影響力をもってしまうので,該当度数の大小を調整したり,多重回答項目がある場合には,回答数の多少が結果に影響するので,回答者側の回答数についても調整して分析する.数量化3類は,主成分分析などと同様,少数の次元によって近似できない場合には,その次元で説明できないカテゴリーやサンプルは中央に布置されるので,データにおける類似関係と矛盾した布置になることがある.数量化3類は,主成分分析と同様に,軸そのものの意味が応用に適さない場合があるので,次元が多くなって空間的に把握できないときには,次元に意味があるかないかの解釈が難しくなる.
数量化3類・コレスポンデンス分析・双対尺度法
3つの方法は,取り扱うデータが習慣的に異なっているので,データの形や基準化する方法が異なっているが,その後の解析法は同じである.その解析法は主成分分析とも同じであり,固有値・固有ベクトルを求めること,特異値分解,エッカート・ヤング分解などとも一致する.
コレスポンデンス分析は,集計表が分析の対象になることが多いので,マイナスのないポアソン分布,二項分布,多項分布,超幾何分布などの期待値(平均値)と分散によって基準化する.数量化3類も同じであるが,コレスポンデンス分析は「集計項目の行要素」と「列要素(項目)」を対応させる(相関を最大にする).数量化3類は,行要素が個人サンプルであるので,「個人」と「カテゴリー」を対応させる方法である.数量化3類で,性年齢などの集計属性と項目を対応させるときには,個人のサンプルスコアを性年齢別に平均してプロットすることになるので,性年齢などの属性間に違いが無く個人差要因が大きいとき,属性は中央に固まって布置される.性年齢などを項目と対応させたいときには,集計した結果をコレスポンデンス分析すれば,うまく対応させることができる.ただし,もともと,個人差に左右される項目の場合,コレスポンデンス分析では,小さな分散を基準化して無理やりに対応させている可能性があるので,注意しなくてならない.いずれにしても,コレスポンデンス分析は,項目と集計属性を均等に対応させる方法(相関を最大にする方法)なので,解釈しやすい結果になることが多い.01データにそのままコレスポンデンス分析を適用したのが数量化3類であり,逆に,度数の数量化3類分析は一般的なコレスポンデンス分析になる.双対尺度法は,未知の得点の級間分散の最大化という基準で説明したのであるが,同じ方法になる.説明の仕方の違いで言えば,「行と列の2重基準化データの主成分分析」「基準化データのパターン類似度分析」「基準化データの展開法モデル」などとも言える.
数量化3類と潜在クラス分析との違い
ともにカテゴリー変数の分析法と言われているが、基本的な考え方は異なっており、目的によって使い分ける必要がある。
数量化3類は、一種の相関分析であり、項目と評価者の関連度行列(調査データそのもの)から、互いに相関する項目カテゴリーから独自の次元を求める。多くの場合、独自の複数の次元は、その分散(固有値)の大きさを均等にした得点(サンプルスコア)の大小関係を見たり、類似関係を分析したりする。相関関係から均等な独自の次元を求めるのであるから、多変量解析の特徴を持っている。
潜在クラス分析は、重回帰分析の独立変数のように、本来的な変数間の相関関係を想定しないので、基本的に多変量解析の目的とは異なっている(「多変量解析の定義」の項目や「データ分析入門2」などに多変量解析の考え方がある)。重回帰分析の場合は、独立変数間の本来的な相関を想定しないが、見かけ上の相関を取り除いて、要因効果を分析する。潜在クラス分析では、変数間の相関関係を想定しないだけでなく、得られたデータの共変動部分は、同時に出現したデータの大きさを表現していると考える。独立した因子得点の++、+−、−+、――の出現度数のようなものである。
したがって、潜在クラス分析では、固有値を求めるとき、データの積和行列(ボリュームを表すデータ)のような度数の大きさがそのまま反映されるデータを分析することになる。積和系のデータは、2重クロス、3重クロスなど高次のクロスデータに単純集計のような項目の出現度数の大きさが反映されるので、高次のクロス表を分析すれば、データの全体の傾向を把握できる(コレスポンデンス分析、カイ2乗検定、分散分析などは、主効果や交互作用を分離するが、潜在クラス分析は分離しない)。
このようにして得られる潜在クラス分析の次元(固有値)は、度数データの大きさを最も大きく説明する次元が順次えられるので、回答者の回答度数を説明する次元であり、潜在クラスをその大きい順に表現している。
潜在クラス分析は、数量化3類のように複数の項目から独立した次元を求めるという方法ではなく、回答度数の大きいところを順番に見つけ出す方法である。したがって、項目間に本質的に相関関係がある場合には、潜在クラスを求めるとき、同じ項目を何度も使って潜在クラスを求めるようなことになっているので、有効な潜在クラスが得られていないことになる。項目間に本質的な相関関係がある場合には、一旦因子分析や数量化3類によって独立した次元を求めて、01パターン化し、そのデータを潜在クラス分析すると良いクラスが得られることが予想される。その場合、独立した得点のクラスター分析を簡略化した場合になっていると言える。
数量化2類
予測変数がカテゴリー変数のとき,所属群の予測式を構成する方法が数量化2類になる.カテゴリー変数の判別分析と言われている.カテゴリー変数を取り扱うときには,カテゴリーを01型の変数に変換し,一つのカテゴリーを0としてカテゴリーウェイトを計算する.多変量解析の重判別分析にあたる.
数量化2類についての詳しい内容は、既刊書「コレスポンデンス分析の利用法」、「多変量回帰分析・正準相関分析・多変量分散分析」、「データ分析入門2多変量解析法・MDSの応用」など参照。
スチール・ドワスの多重比較
ノンパラメトリックな多重比較検定法.平均値の多重比較法であるチューキー・クレーマー法(平均値計算のN数が等しくないときに調和平均を用いる場合のチューキー法)において平均値を順位に置き換えて対比較する.検定結果は,通常のテューキー法と同様にスチューデント化された範囲の表を用いる.
ステップワイズ法 step-wise method
重回帰分析や判別分析などのときに使われる変数を選ぶ方法.独立変数間の相関が高いとき(多重共線性),データの小さな偏りによって推定値が大きく変化するように,推定値が不安定になったりする.また,推定値は独立変数の独自の寄与が表現されるので,互いに相関の高い独立変数は個々の寄与は高いのに両方同時に分析すると両方とも寄与率が低いように見えるなど,解釈がしづらい結果になることが多い.その場合,互いに相関の高い変数群の代表を残し,他の変数を除く方法がステップワイズ法である.従属変数に対して,もっとも寄与の高い変数から順に変数を選択していき,残りのどの変数も統計的に効果がないと判断されたときに変数選択を打ちきる.変数を取り込んでいくと,多数の変数の関係から,既に取り込んだ変数の有意性が下がることがあるので,新しい変数を取り込んだ後,既に取り込んだ変数の有意性をいちいち判定して有意性が判定基準より下がったときには除外する,という手順を含んでいる.一つずつ有意な変数を取り込んでいく前進的な選択法に対して,可能な変数をすべて用いた分析結果から,もっとも有意性の低い変数を一つずつ除いていく後退的方法がある.一般に,後退法の方が前進法よりも多くの変数を残す傾向があるが,多くの場合,ほとんど同じ結果になる.判定基準は,t検定のt値(F値)を用いることもあるが,有意性の確率(5%か1%)を用いることが多い.
ストレス指数(ストレスの次元)
当社のストレス評価項目は,おもに就業者について,心理的な不安,疲労,不適応など10のスケールによって個人を評価する.集団を判定することもできる.約60項目の質問に対してYes,Noの回答結果から計算する.10のストレス次元には,心理的な状況と身体的な症状が含まれている.イライラ感,無気力感,仕事の不満感,うつ傾向,過労傾向,心理的疲労傾向,胃腸障害,不眠傾向,慢性疲労傾向,自信喪失感の10尺度.1990年前半に,数回のオフィス就業者50〜300人の首都圏調査データの因子分析によって10尺度が構成されている.
正規分布曲線とロジスティック分布曲線(ロジスティック関数)
一般化線形モデルなどにおいて,連結関数として正規分布を想定しての比率変換(プロビットモデル)やロジスティック分布を想定しての比率変換(ロジットモデル)などがある.そのほか,ロジスティック関数は,計算が簡単なために,正規分布の代わりに用いられることがある.正規分布は,誤差分布として古くから用いられているが,対数変換の差として表現できるロジットは,そのモデル自体としても積極的な意義を持つ関数である.累積分布関数として理解すると,ほとんど同じような形をしているが,裾の部分の数パーセント程度の確率を計算すると違いが目立ってくる.図では横軸はロジスティック関数を1.7倍して累積正規分布曲線に合わせている.
性格(パーソナリティー)の測定
当社の評価項目は,1980年代後半に入社試験用に,比較的変化しにくい行動傾向を測定するために作られた.首都圏の大学生(10校500人),就業者,一般消費者(1000人程度)のデータをもとに5尺度を構成した.2000年の学生調査によると,言葉の意味自体が大きく変化していることが予想されて,行動傾向の変化なのか言葉の使い方の変化なのか区別できないというような結果が出ている.
正準相関分析 canonical correlation analysis
一般に、正準相関分析は、2群の変数から、相関係数が最も大きくなるような合成変量を構成する、という方法であるが、この方法は、実際の利用場面では、@因果関係の因子(主成分)を求めること、A第1群のサンプル得点と第2群のサンプル得点を対応させること(多重判別や数量化2類の群とサンプル得点の対応関係の例)という意味を持っている。Aの対応関係は、多重判別分析や数量化2類のように片方が群である場合には、判別分析という明確な分析法になるが、両方とも変数の場合には、推定の精度を表わすので、応用には使いにくい。そこで、変数の対応関係(正準得点や構造ベクトル=因子負荷量)を見ること、正準得点を他の分類項目別(性別、年齢別など)に見ること、などによって応用的な価値が増す。
図2は、2つの変数群間の相関係数を表わし、それぞれの変数群は多変量の標準化がなされているので、多変量の単位ベクトルになっている(通常の相関係数と同じイメージ)。図3は、多変量の相関係数にあたるΘが行列の形になることから、その次元近似(主成分分析、特異値分解)が行われることを示している(正準相関分析のこと)。図4は正準係数と構造ベクトルの求め方を示す。(詳しくは、「多変量回帰分析・正準相関分析・多変量分散分析」2006年刊参照)
正準相関分析(3つの変数がある場合)→多変量回帰分析(3つの変数群がある場合)
正準相関分析の利用法(変数群の説明率・因果関係の因子と単純構造)
正準相関分析法は、対応する2つの変数群(3つ以上もある)のそれぞれの変数群から構成される合成変量(加重平均値)の相関が最大になるように変数の係数(加重値、ウェイト)を決める方法であるが、応用的には、次のような意味がある。
(1)異なった変数群が全体として、どれだけ別の変数群に影響を与えているのかを知りたいとき。例えば、オフィスで働く人について、多くのストレス変数の群に対して、オフィスの環境変数群(照明、床、色彩、緑の有無、広さなど)全体としての影響度、あるいは、オフィスイメージ項目の影響度、個人差要因(パーソナリティや価値観など)などの影響度を知りたい時など。この場合、正準相関係数や累積2乗和(決定係数)などが指標になるが、決定係数は、2群間の「関連度」を全体とした指標なので、片方の群の分散全体に対する説明率である「冗長性係数」の大きさが、目的に適した指標と言える。
(2)正準相関分析は、2群間の関連性(相互の相関係数)のみを分析の対象としている。関連性を表わす相関係数は、互いに独立ではないので、独立した主成分に要約される。すなわち、関連性を独立した因子の形で捉える。この正準因子は、因果関係の因子である。下の事例で言えば、結果としての癌のグループ因子ではなく、また、原因としての食物の因子でもない。1つの癌が、複数の食物と因果関係があれば(相関が高ければ)、その複数の食物は同じ因子にまとめられ、また、1つの食物が同時に複数の癌と相関が高ければ、その複数の癌とその食物は同じ因子としてまとめられる。このように、正準相関分析の因子(正準因子)は、複数の相関する因果関係から因子軸(主成分軸)が決められる。通常の主成分分析と同じように、多くの因子が抽出される場合、因果関係の主成分は、応用しやすい因果関係のまとまりを表現していないので、分析結果をバリマックス回転などによって、単純構造が見出せれば、かなり応用しやすい結果になる。
正準得点を求めるための係数は、重回帰分析と同様に、互いに相関することから因子軸の解釈には使いづらい指標である。因子分析の因子負荷量に当たる「構造ベクトル」を用いて軸の解釈をする。さらに、回転後の構造ベクトル(因子負荷量)はもっと使いやすい指標であると言える。(正準因子は、単なる変数のまとまりではなくて、因果関係の類似度から構成される)
下の図は、正準構造ベクトルと回転後の構造ベクトルを表わしている(※データは、「多変量解析ハンドブック」の癌のデータを利用させて頂きました)。下の図には、相関係数行列にコレスポンデンス分析を適用した場合ある。コレスポンデンス分析は、単純に対応させるために、対応関係は明確であるが、回転後の構造ベクトルから判断すると、誤解を生じる可能性があると言える(一般にコレスポンデンス分析は、このような性質を持っている)。
正準相関分析のシミュレーション予測
正準相関分析は、重回帰予測と同じように、独立変数を操作することによって、従属変数の因子得点(正準得点)を予測することができる。重回帰分析の予測値は1次元尺度上を上下するが、正準相関分析の場合、正準因子空間(因果関係の因子)を変化することが特徴である。正準相関分析は、線形モデルであるので、1つの独立変数を等間隔に変化させると、空間上を直線的に等間隔で変化する(図参照)。(※データは、前項目と同様、柳井他「多変量解析ハンドブック」に掲載されたものを利用させて頂きました。)
正準分解 canonical decomposition
特異値分解は、2元の形の行列を、行要素の固有ベクトル(座標値)・列要素の固有ベクトル、固有値の平方根(特異値)に分解する方法であるが、この考え方を3元表に一般化すると、3元データを、3つの要素の得点の掛け算によって表現する形式になる。3つの相は、同じ次元によって表現されるので、特異値分解の結果が行要素、列要素が同一空間内の点によって表現されるのと同様に、3つの相の要素は同一空間内の点として表現される。これは、3元データの主成分分析とも言える。2元データの固有値と同じように、3元データのすべての要素の2乗和と一致するような数値を定義できるが、ランクや2つの相の固有ベクトルの組み合わせなどについて、必ずしも明らかになっているわけではないが、類推的に特異値分解を一般化したものとして応用することができる。主成分分析の結果を利用するときには、行と列の要素のウェイト付けられた得点の相関が最大になるという(対応させる)条件を付加した、コレスポンデンス分析として表現した方が分かり易いのと同様に、正準分解の結果も、3相コレスポンデンス分析として、3つの相の要素の対応関係を表現するために用いることができる。正準分解については、Carroll&Chang,1970やComon,2004など参照。
成長曲線
単調増加の傾向を示し,人間の機能(学習曲線)や集団の成長傾向を表現するときに用いられる.行動の記述に関しては,学習曲線(広告効果の曲線),ロジスティック曲線などの飽和モデル(漸近線を持つ),ゴンペルツ曲線などが利用されている.
積和の因子分析法
積和(内積)行列を用いて主成分分析をしたり,軸を回転させること.通常の因子分析は,平均よりの偏差,分散による尺度単位変換を行ったデータに対して,積和の分析をしていることを意味している.積和の分析では,測定された数値がそのまま分析できるような意味のある尺度になっていることが必要である.積和行列を主成分分析することは,行列の特異値分解あるいはエッカート・ヤング分解などと呼ばれることもあり,内積行列からランクの低い空間布置によって近似するときの方法である.データから直接積和行列を求める場合には,多変数測定尺度が比率尺度として想定できることが必要であるが,様々な仮定による変換後に分析する方法には,主成分分析をはじめトーガーソンのMDS(主座標分析),数量化V類,コレスポンデンス分析,双対尺度法,MDPREFなどと呼ばれている方法がある.
説明変数の解釈についての2つの誤りと多重共線性
要因分析(特に重回帰分析など)の説明変数の効果(要因効果)の解釈について、次の3つの場合がよく起こる。調査などにおいてある製品の購入意向について、年齢と性別の効果を見たいとき、年齢と性別とは本来独立した変数なので、年齢別、性別の調査人数に偏りがあるときの相関は、見かけ上の相関と言える(女性は若年者が多く男性は年長者が多い場合など)。この場合、購入意向が、女性が高く男性が低くなったとき、女性の方が購入意向が高いと結論すると誤った結論の可能性がある。女性の方が若年者が多いので、実際には、性差ではなく年齢差を表現している可能性があるからである(本書ではタイプAの誤りと呼んでいる)。この場合、性別変数と年齢変数を同時の分析する(重回帰分析)によって、互いに直交した方向の要因効果(平面の傾き)を推定することができる。
また、清涼飲料水のおいしさについて、さわやかさ評価とスッキリ感評価を説明変数にして重回帰分析したとき、スッキリ感の偏回帰係数がマイナスになることがある。多くの場合、正しい結果であるが、解釈できないと言ってデータがおかしいと考えることがある(本書では解釈できないと考えることをタイプBの誤りと言っている)。重回帰分析が互いに直交する方向の要因効果を推定するので、さわやかさとスッキリ感の相関を見かけ上の相関として、調整してしまうから、偏回帰係数がさわやかさ、スッキリ感の効果を表現していないから起こることである。本来的に相関関係のある説明変数の効果は、単相関係数に表現されていることが多い。
タイプAの場合には、説明変数は独立変数と呼べるが、タイプBの場合は、独立変数とは言いずらい。独立した変数は、データの相関とは無関係に空間的に直交軸を想定する。本来的に相関のある変数は互いに斜交関係にある。独立変数の見かけ上の相関は、直交軸上でデータが相関を持って布置される。
多重共線性は、独立変数(直交軸)空間上のデータが、細い線状に並んだ場合であって、このようなデータから平面を推定する(回帰係数の傾きを推定する)には不適当と思われる場合である。細い線状に並んだデータの平面を推定する場合、大きな誤差が平面を反転させるほど影響力を持つので(空間全体にデータは誤差の大小が平面を反転させることはほとんどない)、かなり不安定な推定値になっていると思われる。したがって、互いに相関の高い独立変数の要因効果推定値は信頼できない。もともと相関関係が想定される場合の説明変数(上記のさわやか感とスッキリ感など)の偏回帰係数が解釈できないのは、多重共線性とは言わないので、分析方法自体が不適当な場合が多い(単相関係数が適当な場合が多い)。共分散構造分析、正準相関分析などでも、解釈できない係数は、タイプBのケースが多い。
Z得点
Z=(x-m)/σ(mは平均,σは標準偏差)で変換した値.変換後は平均0,分散1になる.データが正規分布するとしたら,Z得点は±1の間の約68%が含まれる.得点の相対的な位置が分かりやすい.単位の異なった得点(身長と体重など)の相対的な位置を比較する場合には便利である.偏差値は,Z得点からマイナスと小数点を出さないように表現した場合と言える.「標準化」参照.
絶対閾(ぜったいいき,absolute threshould)・刺激閾(しげきいき)
音で言えば,はじめて聞こえる音の大きさ.刺激閾とも言う.音に高さ,重さ,その他の感覚について定義される.実際の測定では,聞こえる音と聞こえない音が明確に区別できるわけでないので,多数の測定結果から統計的に決められる.測定法についての心理物理測定法や官能検査法など,測定結果が信頼できるように,その手続きが確立されている.大きい方の閾を刺激頂ということがある.音の大きさなどでは刺激頂の測定はできないので推定値になる.応用的には,絶対閾よりも快適さ,不快さを感じる範囲の方が重要になることが多い.
選好回帰preference regression→外部展開法.
潜在構造分析(潜在クラス分析)latent class analysis 数量化3類との違い→数量化3類と潜在クラス分析との違い
潜在構造分析(潜在クラス分析)latent class analysis の意味とすべての項目を同等に扱う計算法
潜在クラス分析は、主に01型項目についての潜在的なクラス(回答者の群)を求める方法で、多数の消費者の潜在的な群分けをすることなどの目的に利用される。
計算法の基本的な考え方は、回答数の最も大きいところに潜在的な軸を定めることによって、クラス分けの説明力の高い群(潜在的に有効なクラス)を求める方法になっている。したがって、基本的には固有値(説明率の高い分散)を求めることになるが、通常の主成分分析(因子分析)の固有値解法と比較すると、次のような特徴を持っている。
特徴@ 主成分分析などの多変量解析は、同じ次元を構成する変数の多少の問題を除いて、次元を求めることを目的にしている。要因分析を行うとき、互いに相関のある変数を用いると、寄与率が多重になるので、独立した次元を求めて要因効果を見ることは重要な要件である。英語の問題10問、数学の問題5問の学力テストの場合、合計点を出すと、英語が得意な人は10点、数学の得意な人は5点になるので、単純に考えて、英語が半分しか出来ない人と数学満点の人とが同じに評価される。英語を重視する入学試験に利用される方法である。この得点を能力で表現するときには、問題数の多少の問題を除く必要があり、主成分得点はそのような得点である。知能(能力)を取り扱うとき、市場調査などで、項目数を事前に調整できないときには、主成分分析系の方法を使う。
これに対して、上記の問題数を反映させる場合、半飲料などの反復購入数の大小を反映させる分析などは、通常の多変量解析でするような標準化をしないで、データの積和(0が無いことを表す指標)を主成分分析すれば、データの度数の大きさ(ボリューム)を最もよく説明できる次元が求めることができる。潜在クラス分析は、このようなボリュームを説明する軸を求める方法に属する。
特徴A 一般の多変量解析は、変数間の同時出現(2つの項目に該当する、しないということ)を相関関係と考えて、その相関を取り除くことを目的にしているが、潜在クラス分析は、同時出現の部分をクラス分けに寄与の大きな分散と考えて、それを積極的に使う。したがって、同時出現の多い項目がクラス分けに大きな役割を持つ項目と考える(通常の主成分分析は、同時出現の項目はどちらかの項目を除いても同じ結果になる)。潜在クラス分析では、同時出現が相関関係を表現していないことを、局所独立(本来的な項目間相関はないこと)の仮定と言われている。
このことは、重回帰分析などの「独立変数」と同じ考え方である。重回帰分析などでは、独立変数間の相関を「見かけ上の相関」として取り除くが、潜在クラス分析では、項目の独立性は保たれていると仮定するので、同時出現は、独立次元の同時選好結果であるとして、そこを分析目的にする。
特徴B 潜在クラス分析では、2つの項目の同時出現に加えて、3つ以上の同時出現の部分を重視する。現実的には、4つ以上の項目の同時出現を結果に反映させることが難しいので、3つまでのデータを用いる。しかも、すべての項目を考慮できないので、3つ目の項目はどれか一つを用いることが一般的である。後述の本書で提案する方法は、3重クロスの全項目を均等に考慮する方法であり、4重クロス、5重クロスの分も可能である。
(潜在クロス分析の積和3元主成分分析による解法)
以上の説明のように、潜在クラス分析は、独立した次元の反応パターン(11001など)をカウントするような方法であり、本書で言う多変量解析ではなく、度数集計の要約というような特徴を持っている。
3重クロス表の度数は、3元コレスポンデンス分析を適用すると、主効果、1次交互作用、2次交互作用を分離して、3元主成分分析(単一の空間を仮定する方法、既刊書「データ分析入門2」参照)を適用するが、潜在クラス分析の場合には、主効果などを取り除かない3元主成分分析を適用すればよいことがわかる。したがって、3重クロス表を、そのまま入力データとして、積和の3元主成分を求めることによって、解を得ことができる。「データ分析入門2」にあるように、4元以上のデータにも比較的簡単に一般化できるが、実際のデータでは、交互作用が無い場合(データ数が少なかったり、誤差として考えられる場合など)として解釈できるので、3重クロス程度のデータによって、十分、潜在クラスが規定できると考えられる(場合によっては、単純集計表や、2元クロス表のみで十分なこともあり得る)。
潜在変数latent variable・心理学的連続体psychological continuum・心理尺度psychological
scale
例えば,○×式の100点満点のテストについて,努力によって,50点を60点にする場合と90点を100点にする場合を比較すると,90点を100点にする場合の方が実感的に難しいことが分かる.その場合,時間や努力量によって実力は増加するが,100%近くになると,難しいことが一般に,比率の得点は,ロジットは人間行動の要因分析を行うとき,一般に測定された数値ではなく,仮説的な潜在変数について行うことが多い.音で言えば,はじめて聞こえる音の大きさ.刺激閾とも言う.音に高さ,重さ,その他の感覚について定義される.実際の測定では,聞こえる音と聞こえない音が明確に区別できるわけでないので,多数の測定結果から統計的に決められる.測定法についての心理物理測定法や官能検査法など,測定結果が信頼できるように,その手続きが確立されている.大きい方の閾を刺激頂ということがある.音の大きさなどでは刺激頂の測定はできないので推定値になる.応用的には,絶対閾よりも快適さ,不快さを感じる範囲の方が重要になることが多い.
相関係数correlation coefficient
2つの変数の関連度を表す係数.対応する2つの変数の片方が大きくなるともう一方も大きくなるとか,片方が小さくなるともう一方も小さくなるというような傾向を多くのデータの相対的な位置の大小を用いて表現したもの.相関係数が大きいときには,2つの変数の原因と結果の関係があるか,両方の変数とは別に共通した原因があることを示唆している.
相関行列表作成(当社の分析システム名)
相関係数マトリックスを出力するシステム.大小順の並べ替えができる.
相関係数の検定→無相関検定.
操作的定義
人間の行動に関する問題は,言葉やイメージ(概念)によって構成されることが多い.調査や実験では,具体的な操作によって測定するので,問題を具体的な操作によって置き換える必要がある(操作的定義).問題点を直接質問して,回答させることも多いが,回答者が概念の意味や自分の内省的な機能,因果関係の実感など,他人と共通した内容を持っているとは限らないので,操作的定義によって,間接的に解釈する方が客観性が高く,信頼性が高いことは理解できる.実用上では,操作的な測定よりも,直接に意識内容を質問することが必要な場合や,有効な場合が多い.
双対尺度法 dual scaling
集計表などの行と列の両方をスケーリングしてマッピング表現をする方法.行と列とを入れ替えても同じに取り扱えるので(双対性という),双対尺度法と言われる.分割表の実現値から,分散分析の級間分散を最大にするように行要素の得点を推定する.最適尺度法Optimal scalingとも言われる.級間分散を最大にすることは,データを基準化すれば,行要素の得点と列要素の得点の相関を最大にすることと等しい.したがって,相関を最大にするという基準の数量化3類の解き方と一致する.また,相関を最大にすることは行と列の相互の回帰分析の誤差を最小にすることにもなる.相関を最大にすることや回帰の誤差を最小にすることは,行と列の座標値を数値的にできるだけ近づけることを意味し,したがって,MDSの展開法の解き方の一つとも言える.MDSの系統では,ヤング・ハウスホウルダーの距離と座標値との関係式から,重心を原点とした座標値を固有値と固有ベクトルを解くことによって求められる.コレスポンデンス分析は,行と列の両方を基準化し,固有値,固有ベクトル(主成分分析,ヤング・ハウスホウルダーの定理)によって,行と列の同時布置を求める.データを基準化しないでそのまま空間布置をもとめ,第1次元目を,スケールファクターとして除くことも考えられる.これらの方法は,異なったアイディアから構成された方法であるが,基本的に多変量解析で多く用いられる分散最大化の基準に従うので,測定データの違いと分析結果の表現法が異なるが,同じ解法になる.その意味では,データを適当に変換すれば,これらの分析法は,正準相関分析と解き方によって解くこともでき,数量化2類,多重判別分析,重回帰分析,判別分析などとも同じ基準として一般化することができる.応用する側からすると,少ない解析プログラムがどの要請にも対応できるので,非常に便利である.
双対尺度法とコレスポンデンス分析・数量化3類との関係→「数量化3類・コレスポンデンス分析・双対尺度法」参照.
相 modeと元 way
元はデータの形を表現するときに用いられる.2元データ,3元データなど.相modeは、測定される集合を表わすときに用いられることが多い。相関行列は、2元の形をしているが、行要素と列要素が同じなので、1相データと言える。複数のブランドにについて、複数の評価項目によって、複数の人が評価した結果は、直方体のイメージによってデータを表現できるので、2元データであり、各元は異なった集合の要素になるので、3相データと言える。評価者を年令別×性別などの属性として捉えた場合、4元データとしてして表現できる。また、4相データと言える。実際の分析では、元や相の概念をあまり気にしないで分析法を利用することができる。ちなみに、相の用語は、phaseの訳に用いられることがあり、これらは異なった意味である。3相因子分析,3相コレスポンデンス分析、3相主成分分析などの項参照.
相の追加(コレスポンデンス分析)→外部多相コレスポンデンス分析.
層別平均と相関との違い
購入意向と製品の特徴との関連を見たいとき,購入意向の高い人の製品特徴の評価結果を見て,平均値の大きい特徴が,購入意向の原因であると考えやすい.しかし,購入意向の低い人を見ると,やはり同じ項目の平均値が高い場合がある.購入意向の原因は,高意向者と低意向者の特徴評価の差をみる必要がある.原因(要因効果)の分析法である相関係数,分散分析などは,絶対的な水準ではなくて差の大小を問題にする.
測定値の分類
測定値は、分析法(測定モデル)の違いから、図のように4つに分けられる。基本的には、マイナスのない度数・倍数系と心理尺度などの不変尺度系の2つになり、対数関数・指数関数によって結び付けられる(ポアソンモデル・対数線形モデル・フェヒナーモデルなど)。比率系の測定値は、対数モデルを測定の状況に適用した場合として理解できる。ここでの分類は、分析法と一致していることが特徴であるので、名義尺度nominal
scaleと呼ばれる測定値は、分析するときには、度数・倍数尺度や数量尺度(不変尺度)のどちらかに分類される。順序は、「選択の順位」と「弁別の順序」に分けられて、それぞれ、取り扱い方法(モデル)が異なっているので、予測のためには、適したモデルを用いる必要がある。(「心理測定の基礎と調査での応用」君山2009参照)。
Home 既刊書籍 会社概要 ア行 カ行 サ行 タ行 ナ行 ハ行 マ行 ヤ行 ラ行 ワ行 参考文献