Excel。分布のパターンの相違は、カイ二乗検定でチェックするとみえてきます
<CHISQ.TEST関数:カイ二乗検定>
日頃馴染みのない関数というのは多々ありますが、ちょっとした時に、役に立つ関数が多いのも事実です。
そこで、今回は、カイ二乗検定でお馴染みの『CHISQ.TEST関数』(カイ・スクウェアド・テスト)を使うことで、データの実測値と期待値のズレを見ることを確認してみましょう。
次の表があります。
この表は、試食Aと試食Bを食べ比べてもらい、美味しいと感じた方にポイントを入れてもらった結果を集計したものです。
男性が20名参加して、男性は、試食Bが美味しいというのが表から見える気がしますが、本当にそうなのでしょうか?
見た目の直感ではなくて、誤差の範囲かもしれないので、『検定』を実行しないとなんともいえません。
今回のように、分布のパターンの相違を確認するには、【カイ二乗検定(X^2検定)】を使っていきます。
このカイ二乗検定は、『独立性の検定』ともいわれています。
カイ二乗検定は、Excelの関数。CHISQ.TEST関数であっさり算出することができ、結果もすぐにわかるのですが、事前に期待値を算出しておく必要があります。
それと、性別と試食というそれぞれの属性が「独立」していると仮説(帰無仮説)を立てて検定を実施します。
この仮説(帰無仮説)が棄却される結果が出れば、「独立」ではなく、すなわち、何らかの関係があるということを意味します。
今回は、「性別によって試食Aと試食Bの割合に違いは生じないはず」と仮説を立てています。
【期待値を算出】
下の表は、上記表の値を元に、期待値を算出した表です。
B9の数式は、
=$D4*B$6/$D$6
複合参照を使っていますので、わかりにくいですが、
行の合計×列の合計÷全体合計で算出します。
この期待値は、想定されている分布に従っていれば、その値になるはずという値のことです。
見た感じ、実測値と期待値に違いがあるように見えます。
実測値と期待値が算出することができれば、いよいよ、CHISQ.TEST関数の登場です。
G8にCHISQ.TEST関数を使って算出しますので、CHISQ.TESTダイアログボックスを表示します。
実測値範囲には、B4:C5を設定します。
期待値範囲には、B9:C10を設定します。
たった、これだけで完了なので、あとはOKボタンをクリックします。
小数点で表示されるとわかりにくいので、パーセント表示にします。
確率が、2,71%と算出されました。
この確率が5%以下なので、帰無仮説は棄却されたことを意味しています。
「性別によって試食Aと試食Bの割合に違いは生じないはず」という仮説でしたので、仮説が棄却されたので、性別によって、試食Aと試食Bの好みが異なるといえることがわかりました。
このように、日ごろ使わない関数も、意外と役に立つ、便利な関数ってまだまだありそうですね。