4/16/2017

Excel。事務職のデータ分析その4。標準偏差の算出方法を抑えておきましょう。【standard deviation】

Excel。事務職のデータ分析その4。標準偏差の算出方法を抑えておきましょう。

<偏差・分散・標準偏差とAVERAGE関数・SQRT関数>


最近は、事務職でも資料作りの一環で、
データ分析系の資料作成をする人が増えてきたそうですので、
あまり馴染みがないものも少しずつ慣れていくようにしましょう。

ということで、今回は、平均値や中央値を算出しても、
そのデータのバラツキがどのぐらいあるのか?
を知ることはビジネスで重要なコトです。

Excelでは、標準偏差を一発で算出することができる関数。
STDEV.P関数
STDEV.S関数
がありますが、一発で算出してしまうと、
何をやっているのか?が全くわかりません。

ですので、今回は、順を追って確認していく事にしましょう。
次のデータがあります。

まずは、
年齢というデータが年齢の平均値とどのぐらい差があるのかを算出します。

この『それぞれのデータとデータ全体の平均値の差』を
偏差】と呼んでおります。

D列に【偏差】を算出します。計算式自体は簡単です。
=$C$23-C3
平均値はすでに算出しておりますので、
絶対参照にして、データで減算します。

オートフィルを使って数式をコピーしておきましょう。

ここで気をつけないといけないのが、
【偏差】というので、【標準偏差】と勘違いする人がいますが、
違いますのでご注意ください。

偏差は、それぞれ、
平均値からどのぐらい離れているのか?ということですので、
プラスもあればマイナスもあります。

次に、偏差の2乗を算出します。

D列の偏差を合計すると0(ゼロ)になってしまうので、
バラツキの平均を算出することが出来ません。

【2乗してバラツキの平均を算出】

そこで、2乗してバラツキの平均を算出します。

なぜ、プラスマイナスを除く絶対値を算出して、
その平均値を算出する方法をとらないのか?というと、
統計学的に扱いが難しいので、
絶対値を使った「平均偏差」と呼ばれる方法は、
実際の分析で用いられることは少ないそうです。

では、E列に、偏差の2乗の数式を作成してきます。
E3には、
=D3^2
という数式が設定されています。
オートフィルで数式をコピーしましょう。

偏差の2乗が算出できましたので、この平均値を算出しましょう。
この平均値の事を【分散】といいます。

E23の数式は、
=AVERAGE(E3:E22)
ですね。

単なる平均値を求めるだけですから、難しい関数は使っておりません。

しかし、この【分散】は、偏差の2乗の平均値でしかありません。
バラツキの大きさはわかっても、
もともとC列は年齢というデータでしたから、
分散は単位の無いデータなので、2乗してあるデータを元に戻すと単位。

今回は、「歳」という単位に戻せます。

戻してあげることによって、比較しやすい値になります。

【平方根はSQRT関数】

では、2乗したデータを元に戻すには、
平方根の関数である。SQRT関数を使っていきます。

E24にSQRT関数を使って、分散の平方根を算出します。

なお、この『分散の平方根』を【標準偏差】と呼んでいます。

E24の数式は、
=SQRT(E23)
これで、算出できました。

さて、何がわかったのかというと、
今回の20名の方の年齢のバラツキの度合いを求めることが
出来たということになります。