箱ひげ図とは?読み方・作り方・見方を初心者向けにわかりやすく解説

テックジム東京本校では、情報科目の受験対策指導もご用意しております。

箱ひげ図とは

箱ひげ図(ボックスプロット、Box Plot)は、データの分布を視覚的に表現する統計グラフの一種です。1977年にアメリカの統計学者ジョン・テューキーによって考案されました。

データの最小値、第1四分位数、中央値、第3四分位数、最大値という5つの統計量を一目で把握できる便利なツールとして、統計分析やデータサイエンスの分野で広く使われています。

箱ひげ図の構成要素

箱ひげ図は以下の要素で構成されています:

箱(ボックス)の部分

  • 下端:第1四分位数(Q1)- データの下位25%の値
  • 中央線:第2四分位数(Q2)または中央値 – データを半分に分ける値
  • 上端:第3四分位数(Q3)- データの上位25%の値
  • 箱の高さ:四分位範囲(IQR = Q3 – Q1)

ひげ(ウィスカー)の部分

  • 下ひげ:最小値(または外れ値を除いた最小値)
  • 上ひげ:最大値(または外れ値を除いた最大値)

外れ値

  • 箱ひげ図の外側に点として表示される、他のデータから大きく離れた値

箱ひげ図の読み方・見方

データの中心を読み取る

箱の中央にある線が中央値を示します。これはデータの真ん中の値であり、平均値とは異なります。中央値の位置を見ることで、データがどちらに偏っているかがわかります。

データのばらつきを読み取る

箱の高さ(四分位範囲)が大きいほど、データのばらつきが大きいことを示します。ひげの長さも同様に、データの広がりを表しています。

データの対称性を確認する

中央値が箱の中心にあれば、データは対称的に分布しています。中央値が箱の上部や下部に偏っていれば、データは非対称(歪んでいる)ことを示します。

外れ値の特定

箱ひげ図を使うと、外れ値を簡単に見つけることができます。一般的に、Q1 – 1.5×IQR よりも小さい値、またはQ3 + 1.5×IQR よりも大きい値が外れ値として扱われます。

箱ひげ図の作り方

手順1:データを並べ替える

まず、データを昇順(小さい順)に並べ替えます。

例:5, 7, 8, 9, 10, 12, 13, 15, 18, 20

手順2:5つの統計量を計算する

  1. 最小値:5
  2. 第1四分位数(Q1):下位25%の位置 = 8
  3. 中央値(Q2):データの真ん中 = 11(10と12の平均)
  4. 第3四分位数(Q3):上位25%の位置 = 15
  5. 最大値:20

手順3:箱とひげを描く

  • 箱をQ1からQ3まで描く
  • 箱の中に中央値の線を引く
  • 箱から最小値と最大値まで線(ひげ)を伸ばす
  • 外れ値があれば点で表示する

箱ひげ図を使うメリット

1. データの全体像を素早く把握できる

一つのグラフでデータの中心、ばらつき、外れ値を同時に確認できます。

2. 複数のグループを比較しやすい

複数の箱ひげ図を並べることで、異なるグループ間のデータ分布を簡単に比較できます。例えば、クラスごとのテストの点数分布や、地域ごとの売上データなどを視覚的に比較できます。

3. 外れ値の検出が容易

異常値や特殊なデータポイントを視覚的に発見できます。

4. 少ないスペースで情報を伝えられる

ヒストグラムなどと比べて、コンパクトに多くの統計情報を表現できます。

箱ひげ図の活用例

ビジネス分野

  • 売上データの分析(地域別、商品別など)
  • 顧客満足度調査の結果比較
  • 製品の品質管理データの可視化

教育分野

  • テスト成績の分布分析
  • クラス間の学力比較
  • 学習時間と成績の関係分析

医療・健康分野

  • 患者の年齢分布
  • 治療効果の比較
  • 検査値の正常範囲の確認

スポーツ分野

  • 選手のパフォーマンスデータ分析
  • チーム間の統計比較
  • トレーニング効果の測定

箱ひげ図作成に使えるツール

Excel

Excelでは「箱ひげ図」のグラフタイプを選択することで簡単に作成できます(Excel 2016以降)。

Python

matplotlibやseabornなどのライブラリを使用して作成できます。

import matplotlib.pyplot as plt
data = [5, 7, 8, 9, 10, 12, 13, 15, 18, 20]
plt.boxplot(data)
plt.show()

R言語

統計分析に特化したR言語では、boxplot関数で簡単に作成できます。

オンラインツール

Google スプレッドシートやTableauなどのツールでも箱ひげ図を作成できます。

箱ひげ図の注意点

データ数が少ない場合

データ数が少ない(目安として20個未満)場合、箱ひげ図は適切でない場合があります。少数のデータでは、分布の特徴が正確に表現されない可能性があります。

詳細な分布が見えない

箱ひげ図は5つの統計量のみを表示するため、データの詳細な分布(例:2つのピークがある場合など)は見えません。より詳細な分布を知りたい場合は、ヒストグラムやバイオリンプロットを併用すると良いでしょう。

外れ値の定義

外れ値の定義方法によって、箱ひげ図の見え方が変わることがあります。目的に応じて適切な外れ値の基準を設定することが重要です。

まとめ

箱ひげ図は、データの分布を視覚的に理解するための強力なツールです。5つの統計量を一目で把握でき、複数のグループの比較や外れ値の検出が容易にできます。

ビジネス、教育、医療、研究など、さまざまな分野でデータ分析に活用されています。Excel、Python、Rなど、多くのツールで簡単に作成できるため、データ分析の初心者から上級者まで幅広く利用されています。

データを扱う際には、箱ひげ図を活用して、データの特性を素早く把握し、より深い洞察を得ることができるでしょう。


関連キーワード

  • 四分位数
  • 統計グラフ
  • データ可視化
  • ボックスプロット
  • データ分析
  • 外れ値検出
  • 統計学入門

    らくらくPython塾 – 読むだけでマスター

    【現役エンジニア歓迎】プログラミング学習お悩み相談会

    【情報I】受験対策・お悩み相談会(オンライン・無料)

    【オンライン無料】ゼロから始めるPython爆速講座

    テックジム東京本校

    格安のプログラミングスクールといえば「テックジム」。
    講義動画なし、教科書なし。「進捗管理とコーチング」で効率学習。
    対面型でより早くスキル獲得、月額2万円のプログラミングスクールです。
    情報科目の受験対策指導もご用意しております。