重回帰分析と因子分析のちがい

重回帰分析と因子分析のちか゛いについてみていきたいと思います。

この二つの分析は目的か゛違います。重回帰分析は、大量にあるテ゛ ータから関連性のあるテ゛ータを導き出し、そこから変数を導くことて゛、未観測の値を導 き出すことを目的とします。一方、因子分析はそれそ゛れ与えられた変数を因子によりグループ化していくことを目的とします。重回帰分析は与えられたテ゛ータ を元に、未観測の値を予想する分析て゛、因子分析は与えられたテ゛ータの解釈の仕方を分 析する、というわけて゛す。

因子分析についてはこちらをご参照ください。因子分析

重回帰分析とは何か軽く見ていきます。

重回帰分析は、複数の変数を入力することて゛一つの変数を出力する、という分析て゛す。

重回帰分析は英語て゛ multiple variable regression と言います。つまり、インフ゜ットす る変数の数か゛複数ある回帰分析、というわけて゛すね。と゛ういう時にこの重回帰分析使う かというと、あるテ゛ータのク゛ルーフ゜の関連性を知りたいと思った時、その関連性に2つ 以上の変数(因子)か゛ある、といった場合て゛す。

具体的な例を見ていきましょう。

学校の試験の成績はと゛のような変数から影響を受けて いるのて゛しょうか?試験の成績には宿題の提出率か゛関係しているとよく言われます。た た゛、それた゛けて゛しょうか?人は一人ひとりもっている IQ か゛違うと言われます。ここて゛ はこの二つの変数(因子)に注目して回帰分析の式を作ってみましょう。

(試験の成績)= b1*(宿題の提出率) + b2*(生徒の IQ) (b1,b2 は定数て゛す)

宿題の提出率、生徒の IQ か゛独立変数、そして試験の成績か゛従属変数ということになり ます。上の式、両辺か゛互いに等しくなるのか゛理想て゛すか゛、現実的には少しの差異か゛て゛て きてしまいます。ここて゛はその差異をε(イフ゜シロン)とします。そこて゛上の式から、 絶対値を使って

ε = |(試験の成績) – {b1*(宿題の提出率) + b2*(生徒の IQ)}|

もしくは

(試験の成績) = b1*(宿題の提出率) + b2*(宿題の IQ) ±ε

と表せます。このεの値か゛小さくなれは゛なるほと゛、回帰分析の正確さか゛向上します。こ こて゛覚えていてほしいのは、ある一つの変数、例えは゛宿題の提出率の変化を見るとき、 のこりの項は定数て゛ある、とみなして回帰分析を実行する、という点て゛す。ある一つの 変数を X 軸、その変数に従属する変数を Y 軸におけは゛、二つのテ゛ータの関係性を XY 平面上に表せる、つまり、ク゛ラフに表せます。
さて、この重回帰分析をつかって分析する際、特に変数をインフ゜ットする際にありか゛ち な落とし穴か゛二つあります。それは

        • 入力した変数か゛他に入力した変数に影響している(されている)かもしれないこと。
        • 入力する変数の数か゛多すき゛ること。

て゛す。
ます゛一つ目。「入力した変数か゛他に入力した変数に影響している(されている)かもしれ ないこと」について。 独立変数の名の通り、入力する変数は独立していなけれは゛いけません。なせ゛かというと、 もし他の変数て゛その変数を表せたとしたら、と゛こかおかしい点か゛出てくるのて゛す。
例を見ていきましょう。P = b1*x1 + b2*x2 + b3*x3 とします。
x3 か゛インフ゜ットする変数なのに x3 か゛ x2 て゛表せると仮定します。すると x3 = x2 * c (c は係数)
と表せます。
これを代入して、

P = b1*x1 + b2*x2 + b3*(x2 + c)

となります。
ここて゛入力した変数 x2 の変化の値と出力された変数 P の変化の値を見てみましょう。 もともと x2 か゛(x2 + h)に変化した時、変数 P の変化の値は b2 * h と導けます。しかし、 この仮定か゛正しいとすると落とし穴に行く前に説明した、変化を測る時の約束か゛うまく 働きません。なせ゛なら定数て゛あるはす゛の b1*x1 + b3*(x2 + c)まて゛もか゛変化しているた めて゛す。変数 P の変化の値は b2*h + b3*h となり、等しくあるには b3 =0 て゛なけれは゛ なりません。そうすると P = b1*x1 + b2*x2 となり、結局 x3 の項はなかったことに なります。ゆえに、x3 は式から消えます。

このようなおかしな現象か゛起きないようにするにはと゛うすれは゛いいのか? そうて゛す。x3 か゛ x2 て゛表せると仮定したことか゛誤りた゛ったのて゛す。

注意しなけれは゛ならないことは、変数を入力するときにその変数か゛他て゛表せる従属変数 て゛ないことをしっかり確認していかなけれは゛いけません。

次に、二つ目の落とし穴「入力する変数の数か゛多すき゛ること」について。 一つ目の落とし穴を通り抜ける時に注意しなけれは゛ならなかったこと、それは変数同士 の関係性をいちいち確かめなけれは゛ならない、ということて゛したよね。それは入力変数 と入力変数のと゛のヘ゜アも影響しあわないこと、そして入力変数一つ一つか゛外出変数と影 響し合っていることを確かめなけれは゛使えません。

ここて゛簡単にと゛れくらい関係性について検証か゛必要なのか計算してみたいと思います。 独立変数(x1,x2,…,xn)と従属変数(y)の数の和か゛ f 個て゛ある重回帰分析を試みようとする、 とします。それそ゛れの関係性を調へ゛ると

(変数1つ追加前) = f * (f – 1) /2

 

(変数1つ追加後) = (f + 1) * f /2

ゆえに、一つ追加するた゛けて゛ f^2 の検証か゛必要になります。この結果からわかるよう に変数を新たに加えることは計算か゛複雑になるた゛けて゛なく、往々にして良い結果を生ま ないことか゛多いて゛す。結論、入力する変数の数は減らしましょう。

最後に因子分析とのちか゛いについてみてみましょう。重回帰分析の落とし穴を避けるた めに変数(因数)の数はなるへ゛く減らす、と言いました。て゛は複数の変数から潜在的な変 数を導き出す因子分析は、重回帰分析とと゛のように違うのて゛しょうか?

 

この二つの分析は目的か゛違います。重回帰分析は、大量にあるテ゛ ータから関連性のあるテ゛ータを導き出し、そこから変数を導くことて゛、未観測の値を導 き出すことを目的とします。一方、因子分析はそれそ゛れ与えられた変数をグループ化することを目的とします。重回帰分析は与えられたテ゛ータ を元に、未観測の値を予想する分析て゛、因子分析は与えられたテ゛ータの解釈の仕方を分 析する、というわけて゛す。

ポジネガ判断自然文解析ディープラーニング音声認識統計データ分析重回帰分析その他