前回のデータの活用の分野の学習では、データを活用していくうえで、基本的な代表値や値の確認をしていきました。
このページでは、前回の学習内容を踏まえて、実際にデータの分析方法の学習を進めていきます。
学習内容の入り口として学び始めることは、データ分析の場面で頻繁に見かける「度数分布表」の学習をしていきます。
度数分布表では、前回学習した代表値の中から、「平均値」「中央値」「最頻値」の3つの値も絡めて学習を進めていきます。
まだこれらの数について理解が深まっていないという学生さんは、ぜひ前回のテーマの学習を終えた後、このページの学習を進めていきましょう。

データを見やすく整理する「度数分布表」とは?
まずは、このページのメインの学習内容である「度数分布表」について見ていきましょう。
これは、たくさんのデータをいくつかの範囲(階級)に分けてまとめた表のことです。
なぜ度数分布表が必要なのか?
たとえば、ある中学3年生のクラス20人分の数学テストの点数が以下のようにあったとします。
60, 65, 68, 69, 70, 73, 74, 75, 76, 77, 78, 79, 80, 82, 82, 84, 85, 88, 90, 91
このように20個の数字が並んでいるだけでは、どの点数帯に人数が多いのかが見えにくいです。
これを「度数分布表」にまとめると、こうなります。
階級(点数の区間) | 度数(人数) |
---|---|
60点以上70点未満 | 4人 |
70点以上80点未満 | 7人 |
80点以上90点未満 | 6人 |
90点以上100点未満 | 3人 |
度数分布表を使って整理をすることで、
- どの点数帯に人数が集中しているか
- 高得点の人はどれくらいいるのか
- 平均はどれくらいか
などが一目でつかめるようになります。
そういった理由からデータ分析を行う上で、度数分布表は必要になってきます。
度数分布表をつくる3つのステップ
度数分布表の必要性について理解を深めたところで、ここからは度数分布表を作る方法を順を追って説明します。
ステップ①:階級を決める
まず最初のステップは階級を決めていくことです。
階級とは、データをグループに分ける区間のことです。
例えば、点数であれば
- 「60点以上70点未満」
- 「70点以上80点未満」
- 「80点以上90点未満」
というように、一定の幅(たとえば10点)で切っていくのが基本です。
この「幅」のことを「階級の幅」ともいいます。
ステップ②:各階級に入るデータの数(度数)を数える
階級を設定したら、次は各階級に含まれる人数や個数を数えます。
各階級に含まれる人数や個数のことを「度数」といいます。
今回の例でみると、60〜70点未満に該当する点数の人は、60, 65, 68, 69の4人なので、度数は4になります。
ステップ③:表にまとめる
最後に、階級と度数を組み合わせて
以下のように、階級と度数をセットで表にします。
階級 | 度数 |
---|---|
60〜70 | 4 |
70〜80 | 7 |
80〜90 | 6 |
90〜100 | 3 |
これで度数分布表は完成となります。
この度数分布表を使って、様々な代表値などを分析していきます。
度数分布表からデータの特徴を読み取ろう
度数分布表ができたら、実際にデータを読み取るステップに進みます。
その前に、度数分布表からどんなことが分かるかを紹介しておきます。
見るべき3つのポイント
度数分布表ができたら、まず見るべきポイントが下記の3つです。
- どの階級にデータが集中しているか
→ 最も度数が多い階級(=最頻値に関係) - 全体の分布の様子はどうか?
→ 偏りがあるのか、ばらけているのかを見る - 中央値や平均値がどのあたりにあるか?
→ 中心的な値の把握に役立つ
この3つを見ていくと、度数分布表からデータを読み取ることができるようになりますし、度数分布表をしっかりと使いこなせていると判断できます。
度数分布表を使うと視覚化もしやすい
さらに、度数分布表を元にヒストグラムを作成することで、視覚的にデータの山や広がりがわかるようになります。
これにより、集めたデータをより深く理解していくこともできます。
ヒストグラムの作り方と詳しい活用法は後述します。
階級・度数・階級値・累積度数とは?
度数分布表の作成方法と、度数分布表から分かることを紹介してきたので、ここからは度数分布表を見ていくうえで理解しておきたい用語を解説していきます。
階級
- データの区間のこと。たとえば「70点以上80点未満」など。
- 10点ごとや5点ごとなど、均等な幅で設定するのが基本。
度数
- 各階級に含まれるデータの数(=人数、個数、回数など)のこと。
階級の幅(階級幅)
- 1つの階級の大きさ。
- 例:「70〜80点未満」なら階級幅は10。
階級値
- 各階級の中央の値のこと。
- 例:「70〜80点未満」なら、階級値は$\frac{70+80}{2}=75$
累積度数
- 最初の階級から、ある階級までの度数の合計。
- 中央値を求めるときに重要な値。
ここでは紹介までにとどめておきますが、実際の活用の仕方については後述していきます。
度数分布表と平均値の求め方
度数分布表を学習するうえで必要な用語を紹介したので、ここからは、度数分布表と代表値の関係について詳しく学んでいきましょう。
まずは「平均値」を読み取る方法から見ていきましょう。
度数分布表を使った平均値の求め方
度数分布表から平均値を求める方法は、以下の手順で行います。
- 各階級の「階級値 × 度数」を計算
- それらをすべて足し合わせる
- 最後に「全体の度数(データの総数)」で割る
説明だけではイメージが難しいかもしれないので、実際に例題を使ってみてきます。
例題
先ほどの度数分布表を例にすると…
階級 | 階級値 | 度数 | 階級値 × 度数 |
---|---|---|---|
60〜70 | 65 | 4 | 65 × 4 = 260 |
70〜80 | 75 | 7 | 75 × 7 = 525 |
80〜90 | 85 | 6 | 85 × 6 = 510 |
90〜100 | 95 | 3 | 95 × 3 = 285 |
階級値と度数をかけた値を合計すると
- 合計=260+525+510+285=1580
- 全体の人数=4+7+6+3=20人
したがって、
- 平均値=1580÷20=79点
このようにして度数分布表から平均値を求めることができます。
中央値の求め方:データの「真ん中」を見つけよう
続いては、代表値のひとつである「中央値」について見ていきましょう。
度数分布表から中央値を求める手順
度数分布表から中央値を求めるには、累積度数を使う必要があります。
累積度数を使った中央値の求め方の手順を見ていきます。
手順①:全体のデータ数を確認
まず、合計のデータ数(=全体の人数)を数えます。
例:20人なら、中央値は「10番目と11番目の間」にあることになります。
手順②:累積度数を求める
度数を上から順に足していったものが「累積度数」です。
先ほどのデータを使って、累積度数を度数分布表に加えると下記のようになります。
階級 | 度数 | 累積度数 |
---|---|---|
60〜70 | 4 | 4 |
70〜80 | 7 | 11 |
80〜90 | 6 | 17 |
90〜100 | 3 | 20 |
手順③:中央値が属する階級を特定
上記の度数分布表から中央値が属する階級を特定していきます。
データ数は20個なので、中央値は10番目と11番目の間になります。
⇒ 累積度数11に含まれる「70〜80」が中央値の階級です。
この階級を「中央値の階級」と呼びます。
手順④:以下の式を使って中央値を計算
ここまで算出できたら、あとは計算をしていきます。
中央値を求める計算式は以下の通りです。
中央値$=L+(\frac{\frac{N}{2}-F}{f})・w$
それぞれの文字の意味は下記のとおりです。
- $L$:中央値の階級の下限(この例では70)
- $N$:全体の人数(20)
- $F$:中央値の階級より前の累積度数(4)
- $f$:中央値の階級の度数(7)
- $w$:階級の幅(10)
計算式にそれぞれの値を代入すると
中央値$=70+(\frac{\frac{20}{2}-4}{7})・10=70+(\frac{10-4}{7})・10=70+\frac{6}{7}・10=70+\frac{60}{7}=\frac{490}{7}+\frac{60}{7}=\frac{550}{7}≒78.57$
よって、中央値は 約78.6点
このように、度数分布表でも正確な中央値を求めることができます。
最頻値(モード)の求め方:最もよく現れるデータを探す
最後は「最頻値(モード)」についてです。
度数分布表での最頻値の求め方
度数分布表では、度数が最大の階級をまず見つけます。
先ほどの例を使ってみてみましょう。
階級 | 度数 |
---|---|
60〜70 | 4 |
70〜80 | 7 |
80〜90 | 6 |
90〜100 | 3 |
この例だと、度数が最大の階級は70~80点のところです。
より正確に最頻値を求める式(補間法)
度数分布表からより正確に最頻値を求める計算があるので、その方法も紹介していきます。
その計算式は下記のとおりです。
最頻値$=L+(\frac{f_1-f_0}{2f_1-f_0-f_2})・w$
それぞれの文字の意味は下記のとおりです。
- $L$:最頻値の階級の下限(70)
- $f_1$:最頻値の階級の度数(7)
- $f_0$:前の階級(60〜70)の度数(4)
- $f_2$:後の階級(80〜90)の度数(6)
- $w$:階級の幅(10)
この文字にそれぞれの値を代入していくと、
最頻値$=70+(\frac{7-4}{2・7-4-6})・10=70+(\frac{3}{4})・10=70+\frac{30}{4}=\frac{280}{4}+\frac{30}{4}=\frac{310}{4}=77.5$
よって、最頻値は77.5点になります。
ヒストグラムで視覚的に把握する
ここまでで、度数分布表から代表値の求め方を見ていきました。
ここからは、度数分布表を利用する「ヒストグラム」を見ていきます。
ヒストグラムは、度数分布表を棒グラフで視覚化したものです。
代表値をより直感的に理解するのに役立ちます。
ヒストグラムの特徴
ヒストグラムは、棒グラフで視覚化したものですが、下記のような特徴があります。
- 横軸:階級(区間)
- 縦軸:度数(人数)
特に、棒の高さで、どの階級にデータが集中しているかが一目でわかります。
ヒストグラムと代表値の関連
また、ヒストグラムの特徴から、代表値を結びつけると下記のようなことも見えてきます。
- 一番高い棒 ⇒ 最頻値の階級
- グラフの山の中心あたり ⇒ 中央値や平均値の近辺
このように、ヒストグラムを併用することで、代表値がより深く理解できるようになります。
階級値・階級幅の役割と求め方
ここまでで度数分布表やヒストグラムの特徴を見ていきました。
ここからは、度数分布表を作成する際に必要な階級値や階級幅の求め方を見ていきます。
階級値とは?
まずは階級値から見ていきます。
階級値は、階級の範囲の中央の値のことです。
たとえば、階級が「70〜80」の場合、階級値は
$(70+80)÷2=75$
つまり「70〜80」という範囲の代表として使えるひとつの値が階級値です。
階級値の求め方:基本は「下限 + 上限 ÷ 2」
先ほど示した計算の例のように、階級値の求め方は
階級値$\frac{階級の下限+上限}{2}$です。
実際に求めてみると、下記の表のようになります。
階級 | 下限 | 上限 | 階級値 |
---|---|---|---|
60〜70 | 60 | 70 | 65 |
70〜80 | 70 | 80 | 75 |
80〜90 | 80 | 90 | 85 |
度数分布表で平均値を求めるときにも、階級値が必要だったので、平均値を求める前にこの計算を行うことになります。
階級幅とは?
次に階級幅を見ていきます。
階級幅とは、1つの階級の「幅」、つまり上限と下限の差です。
たとえば、階級「70〜80」の場合、階級幅は
$80-70=10$になります。
階級幅がそろっていないときの注意点
階級幅を設定する際に注意点があります。
その注意点は、階級幅をそろえるということです。
ヒストグラムや代表値の計算において、階級幅がバラバラだと正確な分析ができません。
そのため、同じ階級幅で度数分布表を作ることが大切です。
よくある誤解:上限を含む?下限を含む?
階級を設定する際によくある質問として、「上限や下限の扱い」があります。
一般的に階級を設定する際は「下限を含み、上限を含まない」が統計のルールです。
つまり、「70〜80」の階級には「70」は含まれるが、「80」は含まれない、という意味です。
この点には注意しておきましょう。
代表値はどうやって使われているのか?実生活での活用例
ここまでの解説は数学の知識としての度数分布表やヒストグラムの知識ですが、これらの計算は日常生活でも大いに役立ちます。
実際にこれらの知識は、私たちの生活や社会のさまざまな分野で活用されています。
その例をいくつか見ていきます。
1.教育現場での活用
学校や塾などの教育現場では、テストを行い、学生さんの成績の分析を行うことが多いです。
そういった場面では度数分布表を活用して、下記のようなデータを見ていくことがあります。
- 平均点:学年の全体的な理解度を測る
- 中央値:全体の成績分布のバランスを見る
- 最頻値:よく出る点数(多くの生徒が取りやすい点)
なので、先生たちは、自分の担当クラスの成績の分析に度数分布表などを活用しているかもしれません。
2.経済・収入分析
データ分析の知識は経済や国民生活を分析するうえでも利活用できます。
たとえば、所得データでは、平均だけを見ても実態がつかめないことがあります。
一部の高所得者が平均を大きく引き上げるためです。
そのため、多くの統計資料(例:国勢調査)では中央値の世帯収入がよく使われます。
3.ビジネス・マーケティング
企業運営や販売促進を行っていく企業活動でも度数分布表は活用できます。
たとえば、下記のような例があります。
- 最頻値は、売れ筋商品の価格帯やサイズなどを把握するのに有効。
- 例:靴の販売で「最も売れているサイズ」が26.5cmなら、それが最頻値。
4.医療・健康診断
最後に医療現場などで活用されている例を見ていきます。
医療現場も患者さんのバイタルデータなどを集計したり、分析していくことがあります。
- 平均値:健康診断の平均体重・平均血圧など
- 中央値:年齢別の中央値を見て異常がないかを調べる指標になる
このように、度数分布表などは日常生活の至る所で活用されていることがイメージできたと思うので、もし自分が将来興味のある仕事でも利活用されているなら、基本的な知識の部分からしっかりと身につけていくようにしましょう。
まとめ
このページでは、度数分布表について基礎的な内容を解説していきました。
このページで学んだ内容のポイントを下記にまとめます。
- 度数分布表から平均値・中央値・最頻値を正確に求める方法
- 階級値・階級幅の意味と重要性
- ヒストグラムと代表値の視覚的関係
- 各代表値の使い分けと実生活での応用例
データの活用は、単なる計算だけでなく、データの特徴や傾向を的確に読み取る力を養うことが目的です。
日常生活や社会のさまざまな場面で、データに基づいた判断や意思決定が求められる現代において、これらの基礎知識は非常に重要です。
今後の学習や実生活の中でも、データを正しく整理し、代表値を適切に使い分ける力を身につけていけるように、まずはこのページ学習した度数分布表の基本的なイメージをしっかりと定着できるように学習を進めていきましょう。
コメント