ダミー変数

質的データから量的な目的変数を求める方法を、数量化法I類と言います。
これについては、これから勉強するとして。

ダミー変数というものを利用すれば、重回帰分析をそのまま質的データに応用できます。

天気から、アイスクリーム屋さんの客数を予想しようと思います。
天気を数式に代入するわけですが、これは意味不明です。

天気は数式に代入できません。
そこでこんな方法を考えます。

晴れだったら「1」
曇だったら「2」
雨だったら「3」
雪だったら「4」

・・・と決めれば、数式に代入できます。
けれど、「晴れの2倍」が「曇」だという根拠は何もありません。

そこで、最初からひとつずつの変数にすれば良いです。
これがダミー変数。

晴れだったら、「晴=1、曇=0、雨=0」を代入します。
この方法だったら、係数を正しく定めることで「曇が晴れの何倍なのか」を理論的に定めることができます。

この式には「雪」という変数がありません。
雪の場合は「晴=0、曇=0、雨=0」を代入します。
これは「多重共線性」の問題を避けるためです。

多重共線性は、説明変数の間に強い相関関係がある時に生じる問題です。
雪という変数は、他の晴・曇・雨の変数が定まれば自動的に定めることができます。
これは完全な相関があるということで、この多重共線性にひっかかります。

この多重共線性については、ダミー変数以外の場合でも注意が必要です。
たとえば、最低気温が最高気温に完全に依存している場合は、多重共線性が生じます。
そもそも、完全に依存しているということは、取り除いても同じということです。

そういうわけで、量的データはそのまま用いてやれば良し。
質的データはダミー変数にして用いてやれば良し。
これで重回帰分析が使えるので、これでタイムが予想できるはず!
ということです。

コメント

  1. […] 回帰分析 回帰分析(2) 重回帰分析 ダミー変数 […]

タイトルとURLをコピーしました