偏相関係数

前走タイムだけでは、情報が足りなすぎる。

そこで、年齢というデータを追加してみます。

ここからが、回帰分析の面白いところ。
少し難しいところでもあります。

「前走タイム」と「年齢」という説明変数と、「走破タイム」という目的変数があります。
その間の相関係数を求めてみると、0.91と0.41という値になります。

相関係数の高い「前走タイム」は、走破タイムをかなり正確に予測するヒントになります。
逆に「年齢」と走破タイムの相関係数は低いので、あまり役に立たない。

とはいえ、相関係数は0でないから、無相関ではない。
そういうわけで、説明変数に追加します。

今、さらっと「無相関ではない」と言いましたが、これは厳密ではない。
サンプルの都合で、「相関が見えているだけ」かもしれないです。
本当に相関があるのかについては、「無相関検定」を行う必要があります。

ここでは詳しく触れませんが、これによって「95%の確率で相関がある」などということが出来ます。
「100%の確率で相関がある」ということはできません。
これは統計学があくまでも確率論の上にあるからです。

話を戻しまして、説明変数同士にも相関があります。
「前走タイム」と「年齢」の相関係数は0.35でした。

ここで、問題になるのが、「年齢と走破タイムの0.41という相関係数の原因は本当に年齢なのか」ということです。
前走タイムが年齢と関わりを持っているからです。

年齢と走破タイムの相関は、前走タイムと走破タイムの関わりが、年齢を経由して現れただけかもしれない。
逆も然りで、前走タイムと走破タイムの相関は、年齢と走破タイムの関わりが、前走タイムを経由して現れただけかもしれない。

日本語を読むのが辛くなってきました。

要するに。
年齢の影響を完全に無視した、「前走タイムと走破タイムの相関」を求めなければなりません。
これを今まで見ていた「相関係数」に対して、「偏相関係数」と言います。

値としては、0.90で相関係数より少し小さくなりました。
小さくなったのは、年齢が邪魔をしていた分です。

年齢と走破タイムの偏相関係数も見てみます。
相関係数は、0.41とある程度の大きさを持っていたけれど、偏相関係数は0.25と小さくなりました。
0.41という値に前走タイムがかなり影響を与えていたようです。

このように、重回帰分析では、他の説明変数の影響を取り除いた相関係数である「偏相関係数」を考える必要があります。

コメント

タイトルとURLをコピーしました