Excel。平均値は同じだけど、データのバラツキはどうなっているの。
<AVERAGE関数・VAR.P関数・STDEV.P関数>
Excelで平均値を算出すること自体は、とても簡単に算出することができます。
しかしながら、平均値が同じ場合は当然データの中身を把握しないと、データの特徴などわかりません。
要するに、平均値に近いところにデータが集まっているのか、それとも、平均値よりも離れたところに、とても大きな数値、または、とても小さな数値が存在していることで、それらの数値に引っ張られた平均値なのかもしれません。
少ないデータならば、「目視」でなんとなくイメージすることもできますが、データの件数が増えた場合「感覚」で判断というわけにもいきません。
そこで、「分散」を算出することで、データのバラツキ具合を確認することができます。
今回は、LeadingとWritingのデータを用意しました。
LeadingとWritingの平均値は、それぞれ「65.0」と同じです。
B13の数式は、
=AVERAGE(B3:B12)
平均値だけみても、データの特徴はわかりません。
分散を算出するたけでも、データの特徴を少し把握することができます。
B14に標本分散を算出する数式を設定します。
=VAR.P(B3:B12)
となりのC14にオートフィルで数式をコピーしました。
このVAR.P関数は、標本分散を算出する関数です。
標本分散は、サンプルを全データとしたものです。
母集団すべてのデータを使って、バラツキを算出するのが、VAR.P関数です。
ただ、データの量がとても多い場合、サンプルを取得してそのサンプルを元にして、バラツキを算出するのが、不偏分散を算出する、VAR.S関数です。
今回はデータの都合上、大量なデータを作れなかったので、VAR.P関数をつかっております。
この数値が、大きくなればなるほど、平均値から離れた値がある。
すなわち、バラツキ具合が大きいことを意味しています。
Writingが860.2とLeadingの164.4と算出されています。
Writingのデータを見ると、確かに、Leadingよりも90点台から20点台とバラツキ具合が大きいことがわかります。
さて、この分散ですが、各数値と平均の差の二乗和をデータの個数で割ったものですが、関数をつかうことで、一発で算出することができます。
各数値の平均との差をそのまま足すと、プラスとマイナスで相殺されてしまうので、二乗してから足しているわけです。
このため、分散と元のデータとでは単位がことなっています。
そこで、一般に、分散の平方根を求めて、元のデータと単位を揃えたものが、「標準偏差」というわけです。
ざっくりですが、
√分散=標準偏差 なので、標準偏差の二乗が分散ということになります。
この標準偏差にも、サンプルが母集団そのもの。
データ全部から算出する標本標準偏差を求めることができるSTDEV.P関数。
データの一部をサンプルとして算出する不偏標準偏差のSTEDEV.S関数。
この2つが、Excelには用意されています。
B15の数式は、標本標準偏差を算出するために、
=STDEV.P(B3:B12)
という数式を設定してあります。隣のセルにもオートフィルで数式をコピーしております。
分散も標準偏差も見慣れない関数ではありますが、数式を作ること自体は、とても簡単なので、分散という数値を日ごろ使っている資料に追加してみるだけでも、違ったことが見えてくるかもしれませんね。