箱ひげ図とは?読み方・作り方・見方を初心者向けにわかりやすく解説
テックジム東京本校では、情報科目の受験対策指導もご用意しております。
目次
箱ひげ図とは
箱ひげ図(ボックスプロット、Box Plot)は、データの分布を視覚的に表現する統計グラフの一種です。1977年にアメリカの統計学者ジョン・テューキーによって考案されました。
データの最小値、第1四分位数、中央値、第3四分位数、最大値という5つの統計量を一目で把握できる便利なツールとして、統計分析やデータサイエンスの分野で広く使われています。
箱ひげ図の構成要素
箱ひげ図は以下の要素で構成されています:
箱(ボックス)の部分
- 下端:第1四分位数(Q1)- データの下位25%の値
- 中央線:第2四分位数(Q2)または中央値 – データを半分に分ける値
- 上端:第3四分位数(Q3)- データの上位25%の値
- 箱の高さ:四分位範囲(IQR = Q3 – Q1)
ひげ(ウィスカー)の部分
- 下ひげ:最小値(または外れ値を除いた最小値)
- 上ひげ:最大値(または外れ値を除いた最大値)
外れ値
- 箱ひげ図の外側に点として表示される、他のデータから大きく離れた値
箱ひげ図の読み方・見方
データの中心を読み取る
箱の中央にある線が中央値を示します。これはデータの真ん中の値であり、平均値とは異なります。中央値の位置を見ることで、データがどちらに偏っているかがわかります。
データのばらつきを読み取る
箱の高さ(四分位範囲)が大きいほど、データのばらつきが大きいことを示します。ひげの長さも同様に、データの広がりを表しています。
データの対称性を確認する
中央値が箱の中心にあれば、データは対称的に分布しています。中央値が箱の上部や下部に偏っていれば、データは非対称(歪んでいる)ことを示します。
外れ値の特定
箱ひげ図を使うと、外れ値を簡単に見つけることができます。一般的に、Q1 – 1.5×IQR よりも小さい値、またはQ3 + 1.5×IQR よりも大きい値が外れ値として扱われます。
箱ひげ図の作り方
手順1:データを並べ替える
まず、データを昇順(小さい順)に並べ替えます。
例:5, 7, 8, 9, 10, 12, 13, 15, 18, 20
手順2:5つの統計量を計算する
- 最小値:5
- 第1四分位数(Q1):下位25%の位置 = 8
- 中央値(Q2):データの真ん中 = 11(10と12の平均)
- 第3四分位数(Q3):上位25%の位置 = 15
- 最大値:20
手順3:箱とひげを描く
- 箱をQ1からQ3まで描く
- 箱の中に中央値の線を引く
- 箱から最小値と最大値まで線(ひげ)を伸ばす
- 外れ値があれば点で表示する
箱ひげ図を使うメリット
1. データの全体像を素早く把握できる
一つのグラフでデータの中心、ばらつき、外れ値を同時に確認できます。
2. 複数のグループを比較しやすい
複数の箱ひげ図を並べることで、異なるグループ間のデータ分布を簡単に比較できます。例えば、クラスごとのテストの点数分布や、地域ごとの売上データなどを視覚的に比較できます。
3. 外れ値の検出が容易
異常値や特殊なデータポイントを視覚的に発見できます。
4. 少ないスペースで情報を伝えられる
ヒストグラムなどと比べて、コンパクトに多くの統計情報を表現できます。
箱ひげ図の活用例
ビジネス分野
- 売上データの分析(地域別、商品別など)
- 顧客満足度調査の結果比較
- 製品の品質管理データの可視化
教育分野
- テスト成績の分布分析
- クラス間の学力比較
- 学習時間と成績の関係分析
医療・健康分野
- 患者の年齢分布
- 治療効果の比較
- 検査値の正常範囲の確認
スポーツ分野
- 選手のパフォーマンスデータ分析
- チーム間の統計比較
- トレーニング効果の測定
箱ひげ図作成に使えるツール
Excel
Excelでは「箱ひげ図」のグラフタイプを選択することで簡単に作成できます(Excel 2016以降)。
Python
matplotlibやseabornなどのライブラリを使用して作成できます。
import matplotlib.pyplot as plt
data = [5, 7, 8, 9, 10, 12, 13, 15, 18, 20]
plt.boxplot(data)
plt.show()
R言語
統計分析に特化したR言語では、boxplot関数で簡単に作成できます。
オンラインツール
Google スプレッドシートやTableauなどのツールでも箱ひげ図を作成できます。
箱ひげ図の注意点
データ数が少ない場合
データ数が少ない(目安として20個未満)場合、箱ひげ図は適切でない場合があります。少数のデータでは、分布の特徴が正確に表現されない可能性があります。
詳細な分布が見えない
箱ひげ図は5つの統計量のみを表示するため、データの詳細な分布(例:2つのピークがある場合など)は見えません。より詳細な分布を知りたい場合は、ヒストグラムやバイオリンプロットを併用すると良いでしょう。
外れ値の定義
外れ値の定義方法によって、箱ひげ図の見え方が変わることがあります。目的に応じて適切な外れ値の基準を設定することが重要です。
まとめ
箱ひげ図は、データの分布を視覚的に理解するための強力なツールです。5つの統計量を一目で把握でき、複数のグループの比較や外れ値の検出が容易にできます。
ビジネス、教育、医療、研究など、さまざまな分野でデータ分析に活用されています。Excel、Python、Rなど、多くのツールで簡単に作成できるため、データ分析の初心者から上級者まで幅広く利用されています。
データを扱う際には、箱ひげ図を活用して、データの特性を素早く把握し、より深い洞察を得ることができるでしょう。
関連キーワード
- 四分位数
- 統計グラフ
- データ可視化
- ボックスプロット
- データ分析
- 外れ値検出
- 統計学入門
■らくらくPython塾 – 読むだけでマスター
【現役エンジニア歓迎】プログラミング学習お悩み相談会
【情報I】受験対策・お悩み相談会(オンライン・無料)
【オンライン無料】ゼロから始めるPython爆速講座
■テックジム東京本校
格安のプログラミングスクールといえば「テックジム」。
講義動画なし、教科書なし。「進捗管理とコーチング」で効率学習。
対面型でより早くスキル獲得、月額2万円のプログラミングスクールです。
情報科目の受験対策指導もご用意しております。
