統計学とは
集めたデータから、その傾向や性質を明らかにして、分析するための学問です。
例えば、日本には1億2千万(120,000,000)を超える人が生活しています。その全員の情報を集めるために「国勢調査」が行われています(全数調査)。ただし、国勢調査を実施するにはたくさんのお金や人手が必要なので、5年に一度しか実施しません。
そこで、全員を調べなくても、1万人(10,000)を対象に情報を集める(標本調査)ことができれば、ほぼ正確なデータを集めることができるようになります。いずれの調査方法も統計学では正しいやり方として使われています。
統計学の役割
- データの整理:たくさんあるデータを「平均値」や「グラフ化」によってわかりやすくします
- 傾向をみる:データの特徴や規則性を明らかにします
- 未来の予測:過去のデータから、近い未来を予測します
- 関係の分析:複数のデータの関係を分析します
統計学の活用例
- ビジネス:顧客の分析や売上の改善、需要の予測 など
- 医療:新薬の作成や病気の分析 など
- 日常生活:天気予報 など
- 研究:データを分析して結論を導き出す
データの傾向を見る
集めたたくさんのデータを分析する方法について勉強しましょう。
たとえば、50人のテストの点数が以下のようなものだったとします。
72、81、55、60、65、45、63、50、35、78、61、52、48、75、62、59、68、54、65、58、67、57、70、43、69、56、60、73、40、66、54、68、59、64、90、49、71、57、80、61、63、58、77、51、66、53、62、46、74、55
このままでは分析することができません。
平均値
平均値とは、データの傾向をみるための方法のひとつです。
すべてのデータを足して、データの数で割ります。
(72+81+55+60+65+45+63+50+35+78+61+52+48+75+62+59+68+54+65+58+67+57+70+43+69+56+60+73+40+66+54+68+59+64+90+49+71+57+80+61+63+58+77+51+66+53+62+46+74+55)÷50=61.3
ExcelではAVERAGE関数を使います。
中央値
中央値とは、データの傾向をみるための方法のひとつです。
データを大きさ順に並べて、その中央にある数です。データの数が奇数の場合はその中心の数、データの数が偶数の場合は中心にある2つの平均の数です。
90、81、80、78、77、75、74、73、72、71、70、69、68、68、67、66、66、65、65、64、63、63、62、62、61、61、60、60、59、59、58、58、57、57、56、55、55、54、54、53、52、51、50、49、48、46、45、43、40、35
ExcelではMEDIAN関数を使います。
=MEDIAN(範囲)
最頻値
最頻値とは、データの傾向をみるための方法のひとつです。
データでもっとも多くでてくる数です。同じ個数のデータが複数ある場合は、最初に出てきた数になります。
90、81、80、78、77、75、74、73、72、71、70、69、68、68、67、66、66、65、65、64、63、63、62、62、61、61、60、60、59、59、58、58、57、57、56、55、55、54、54、53、52、51、50、49、48、46、45、43、40、35
ExcelではMODE.SNGL関数を使います。
=MODE.SNGL(範囲)
度数分布表
データを値ごとに分けて、その傾向をみるための表を作成します。
| 階級(データを区切る範囲) | 度数(該当するデータ数) |
|---|---|
| 35以上45未満 | 4 |
| 45以上55未満 | 11 |
| 55以上65未満 | 18 |
| 65以上75未満 | 12 |
| 75以上85未満 | 4 |
| 85以上 | 1 |
ヒストグラム
ヒストグラムとは、度数分布表をグラフ化したものです。これにより、直感的に傾向がわかります。

刈り込み平均値
刈り込み平均値とは、データの傾向をみるための方法のひとつです。
極端に大きな値と、極端に小さな値を割合(0〜1)で除外して平均値を求めます。
90、81、80、78、77、75、74、73、72、71、70、69、68、68、67、66、66、65、65、64、63、63、62、62、61、61、60、60、59、59、58、58、57、57、56、55、55、54、54、53、52、51、50、49、48、46、45、43、40、35
ExcelではTRIMMEAN関数を使います。
=TRIMMEAN(範囲, 割合)