9/25/2020

Excel。平均値だけではみえてこない、データの散らばりを確認してみよう。【Scatter of data】

Excel。平均値だけではみえてこない、データの散らばりを確認してみよう。

<AVERAGE関数・SQRT関数>

会議資料などで、合計を算出したら、だいたい平均値も算出することが多いかもしれませんが、その平均値だけでは、データ全体がどのような状況なのか把握できないわけです。

そこで、せっかく資料を作るなら、色々情報をプラスしてみるというのはどうでしょうか?


次のデータを用意しました。

 

F1に、C2:C11までのデータの平均値を算出しております。

F1の数式は、

=AVERAGE(C2:C11)

算出結果は、「66.3」。

この数値から、だいたい、60~70ぐらいなんだろうというイメージを持つと思いますが、もしかしたら、100点と10点の両極端にわかれているなんてこともありえます。


そこで、データの散らばり具合を数値化していきます。

データと平均値との差を算出します。

データと平均値との差を「偏差」と呼んでいます。


一列増やして、D列に偏差を算出してみました。


D2の数式は、

=C2-$G$1

オートフィル機能をつかって、数式をコピーしました。


次に、算出した偏差の正負を取り除くために、偏差を二乗します。


E2の数式は、

=D2^2

算出したら終わりではなくて、この偏差二乗を合算します。

この合算したした値を「偏差平方和」とか「変動」と呼んでいます。

ちょっと難しい感じになってきましたが、計算式自体は大したことをしていませんので、慌てないようにしましょう。


ゴールへ向けた、途中計算結果だと思いましょう。

データ数が多くなると、当然、この偏差平方和は、とんでもなく大きくなってしまうので、合っているのか不安になることがあります。


H2の数式は、

=SUM(E2:E11)

算出した「偏差平方和」をデータ件数で除算したものが、「分散」と呼ばれています。

分散の公式が、

分散=偏差平方和÷データ件数なので、偏差平方和を算出したわけですが、最初から、分散のみを算出するのであれば、偏差二乗の平均値を算出しても、「分散」を算出することができます。


分散というのは、データの散らばり具合を表す一つの指標です。


ここでちょっと、統計のお話し。

実際の統計では、処理するデータが、データ全体を表しているとは限りません。

通常は、一部を取り出して処理します。

この取り出した一部のデータを「標本」と呼んでいます。


標本を対象とした分散は、データ全体を対象とした分散よりも若干大きくなるので、データの個数から1を減算させた、不偏分散を算出します。


 

わかりにくく感じるのは、算出している数値は「平均値からの距離」だということ。

もとに単位(点数)に戻してあげる必要があります。

先程、二乗したので、平方根を取ればいいわけですね。


SQRT関数をつかっていきます。


この算出した結果を、「標準偏差」と呼んでいます。

なんか聞いたことがあるかもしれません。


標本標準のH5の数式は、

=SQRT(H3)

分散の平方根です。

標本標準偏差のH6の数式が、

=SQRT(H4)

不偏分散の平方根です。


これで、平均値からプラスマイナス14.6点程度のバラツキがあることがわかりました。