Excel。事務職のデータ分析27。最初は数値データの全体像を把握しましょう。
<MAX・MIN・AVERAGE・TRIMMEAN・MEDIAN・MODE.SNGL・COUNT・MODE.MULT>
色々な統計分析についての書籍があって読むけど、最初に何をしたらいいのかが、よくわからないと耳にしますので、
あまりExcelを使っていないけど、どのような数値を会議資料として、
分析用の資料として用意すればいいのかを改めて、簡単に説明していきましょう。
【全体像の特徴を知る】
数値データではわからないので、全体像の特徴をはあくすることから始めるといいですね。
簡単に算出できるものが多いので、重要性を感じないかもしれませんが、
大切な数値だったりします。
次のデータがあります。
単に数値が並んでいるだけですが、最小値と最高値を知るところから始めます。
当然、MAX関数とMIN関数を使うわけですが、
この2つの項目を知るだけでも、重要です。
日々の日報だったら、なぜこの日だけ売上高がよくないのか?
ということがわかるわけですよね。
改善点を見つけることに繋がるかもしれませんよね。
なので、単純であっても、重要です。
E1の最大値の数式は、
=MAX(B2:B26)
E2の最小値の数式は、
=MIN(B2:B26)
続いて、算出したのは、平均値です。
E4の平均値の数式は、
=AVERAGE(B2:B26)
この平均値ですが、ちょっと難しくいうと、
算術平均とか相加平均といったりします。
相加とは、すべての数値の合計をその数値の個数で除算したもののことですね。
ところが、おおむね平均値に数値があるわけではなく、
異常時というケースが含まれていることが多いので、
それを取り除いた平均値も算出したほうがいいわけですね。
例えば、急にブームになった食品とかがあって、
瞬間的にバカ売れしたりすると、平均値に影響を与えてしまうからです。
では、Excelで異常値を取り除いて算出する場合には、
TRIMMEAN関数を使います。
E5の数式は、
=TRIMMEAN(B2:B26,0.1)
割合を0.1=10%としましたが、
これは、上限0.05%・下限0.05%を意味しますので、注意が必要です。
平均値では、把握できないケースがあります。
そこで、全体の数値を並べてみて、
その中心の値を求める中央値というものを算出することも多くあります。
登場する関数は、MEDIAN関数です。
E7の数式は、
=MEDIAN(B2:B26)
金額が全体平均よりも小さいので、
販売金額は、安いほうに比重が大きいようですね。
【データ量が多くなると最頻値がほしくなる】
大量のデータから特徴を見つけ出すのに、一番多く登場している数値を知ることができれば、
その数値に何かしらの理由。
すなわち購入しやすい価格なのか?などが見えてきます。
データの中で登場回数を算出するために使用する関数は、
MODE.SNGL関数です。
登場する回数が多い数値は、3200だそうですが、
よくみると、29600もデータが2つありますので、最頻値のはずですよね。
このMODE.SNGL関数。欠点があって、
データの最初に登場するほうを算出しちゃうのです。
これでは、会議の資料としては使えません。
そこで、同率一位が、いくつのあるのかを算出して、
該当する数値も算出するといいですよね。
では、同率一位がいくつあるのかを算出してきます。
E10の数式は、
=COUNT(MODE.MULT(B2:B26))
いくつのあるかということなので、COUNT関数。
そして、複数の最頻値を算出することができる、
MODE.MULT関数をネストすると算出することができます。
算出された結果は2なので、2件あるということがわかりました。
E11に、MODE.MULT関数ですが、
{}がついていますが、配列関数にしています。
そこで、この数式の作り方ですが、
最初に、E11:E12を範囲選択します。
先ほどの同率一位の数が5だったら、5つのセルを範囲選択します。
今回は、2と算出されたので、2つのセルを範囲選択しているわけです。
=MODE.MULT(B2:B26)
と入力したら、Enterキーを押さずに、
Ctrl+Shift+Enterキーで配列関数にして完成です。
これで、2つの最頻値を算出することができました。
まずは、このような数値を用意するだけでも
日ごろの資料がグレードアップします。