2/08/2022

Excel。平均値は同じだけど、データのバラツキはどうなっているの。【Distributed】

Excel。平均値は同じだけど、データのバラツキはどうなっているの。

<AVERAGE関数・VAR.P関数・STDEV.P関数>

Excelで平均値を算出すること自体は、とても簡単に算出することができます。


しかしながら、平均値が同じ場合は当然データの中身を把握しないと、データの特徴などわかりません。


要するに、平均値に近いところにデータが集まっているのか、それとも、平均値よりも離れたところに、とても大きな数値、または、とても小さな数値が存在していることで、それらの数値に引っ張られた平均値なのかもしれません。


少ないデータならば、「目視」でなんとなくイメージすることもできますが、データの件数が増えた場合「感覚」で判断というわけにもいきません。


そこで、「分散」を算出することで、データのバラツキ具合を確認することができます。


今回は、LeadingとWritingのデータを用意しました。


LeadingとWritingの平均値は、それぞれ「65.0」と同じです。

B13の数式は、

=AVERAGE(B3:B12)


平均値だけみても、データの特徴はわかりません。


分散を算出するたけでも、データの特徴を少し把握することができます。


B14に標本分散を算出する数式を設定します。

=VAR.P(B3:B12)

となりのC14にオートフィルで数式をコピーしました。


このVAR.P関数は、標本分散を算出する関数です。


標本分散は、サンプルを全データとしたものです。

母集団すべてのデータを使って、バラツキを算出するのが、VAR.P関数です。


ただ、データの量がとても多い場合、サンプルを取得してそのサンプルを元にして、バラツキを算出するのが、不偏分散を算出する、VAR.S関数です。


今回はデータの都合上、大量なデータを作れなかったので、VAR.P関数をつかっております。


この数値が、大きくなればなるほど、平均値から離れた値がある。

すなわち、バラツキ具合が大きいことを意味しています。


Writingが860.2とLeadingの164.4と算出されています。


Writingのデータを見ると、確かに、Leadingよりも90点台から20点台とバラツキ具合が大きいことがわかります。


さて、この分散ですが、各数値と平均の差の二乗和をデータの個数で割ったものですが、関数をつかうことで、一発で算出することができます。


各数値の平均との差をそのまま足すと、プラスとマイナスで相殺されてしまうので、二乗してから足しているわけです。


このため、分散と元のデータとでは単位がことなっています。

そこで、一般に、分散の平方根を求めて、元のデータと単位を揃えたものが、「標準偏差」というわけです。


ざっくりですが、

√分散=標準偏差 なので、標準偏差の二乗が分散ということになります。


この標準偏差にも、サンプルが母集団そのもの。

データ全部から算出する標本標準偏差を求めることができるSTDEV.P関数。

データの一部をサンプルとして算出する不偏標準偏差のSTEDEV.S関数。

この2つが、Excelには用意されています。


B15の数式は、標本標準偏差を算出するために、

=STDEV.P(B3:B12)

という数式を設定してあります。隣のセルにもオートフィルで数式をコピーしております。


分散も標準偏差も見慣れない関数ではありますが、数式を作ること自体は、とても簡単なので、分散という数値を日ごろ使っている資料に追加してみるだけでも、違ったことが見えてくるかもしれませんね。