7/22/2018

Excel。事務職のデータ分析26。相関関係!データとデータに関係性はあるのか?【Correlation】

Excel。事務職のデータ分析26。相関関係!データとデータに関係性はあるのか?

<相関関係:CORREL関数>

データ。ただの数値も集まれば、そこから何かが読み取れたりしますが、
今回は、相関関係というのをご紹介していきます。

相関関係というのがどういうものなのかというと、例として。
気温が高いと、アイスクリームが売れる。
なんてものがあります。

気温というデータと、
売上数、または、売上金額というデータの間に関係性はあるのかどうなのか?
ということで、見た目とか、経験値とか、そういうアバウトな感覚ではなくて、
数値(相関係数)として見ることが出来れば、
社内にある様々なデータから、
色々読み取れる一因を見つけることが出来る可能性があります。

【CORREL関数で算出】

相関関係は、CORREL関数を使うことで、
あっさり簡単に相関係数を算出することが出来ます。

分析系の数値を算出するには、
関数を使うと比較的容易に算出することができるというのが、
不思議なところですね。

では、次のデータを使っていきます。

草野球の成績表なのですが、勝率と得点。勝率と失点。

勝率と防御率。勝率と盗塁に、何らかしらの関係があるのかを確認するために、
相関係数を求めていきます。

では、G8の数式はどのようになっているのか、確認してみましょう。

CORREL関数を使って相関係数を算出しています。

配列1には、勝率なので、$F$2:$F$7。
数式をオートフィルでコピーしますので、絶対参照を設定しておきます。

配列2には、G2:G7。
得点は勝率と関係性があるのかどうなのか?ということを知りたいわけですから、
G2:G7と設定しています。

G8の数式は、
=CORREL($F$2:$F$7,G2:G7)

そして、算出された相関係数はそれぞれ、
得点が0.735561477
失点が-0.949527094
防御率が-0.981589095
盗塁が0.150038332
と算出できました。

しかしこれでは、何が何だかわかりませんよね。
相関係数は、
1に近ければ、「正の相関」が強い
-1に近ければ、「負の相関」が強い
0に近ければ、「無関係
ということを意味しています。

なお、正の相関とは、
一方が増えれば他方も増えるという関係のことをいいます。

負の相関とは、
一方が増えれば他方は減るという関係のことをいいます。

得点は、0.735561477なので、1に近いですが、
失点は、-0.949527094のほうが-1に近いので、
得点を多くとるよりも、失点を抑制するほうが、
勝率にはいい影響があるようにみえます。

なので、防御率が、-0.981589095と、
失点と連動している数値がより-1に近いので、
失点しないようにしていくほうがいいのでは?というのが見えてくる感じですね。

ほとんど関係がない。無関係なのが、「盗塁」ですね。
盗塁は、0.150038332と0(ゼロ)に近いですよね。
ということで、盗塁は、勝率には、あまり影響力がないように見えます。

【相関関係≠因果関係】

今回ご紹介した、「相関関係」ですが、この相関関係は、
あくまでも、何らかの関係があるというもので、
「因果関係」があるとは限りません。

隠れた要因があるために、
相関官営があるように見えることを『疑似相関』といいます。

今回ご紹介した、CORREL関数を使えば、
このようなデータどうしに関係性があるのか?ないのか?見えてきますので、
使ってみると面白いですよ。

ただし、因果関係ではあるとは限りませんので、注意しましょう。