四分位数とは?計算方法から活用例まで徹底解説

データ分析において、四分位数は欠かせない統計指標の一つです。本記事では、四分位数の基本から計算方法、実務での活用例まで、わかりやすく解説します。

テックジム東京本校では、情報科目の受験対策指導もご用意しております。

四分位数とは

四分位数(しぶんいすう、Quartile) とは、データを小さい順に並べたとき、全体を4等分する3つの区切り値のことです。

データの分布や散らばり具合を把握するための重要な統計指標で、中央値(メディアン)を含む代表値の一種として、ビジネス分析や学術研究など幅広い分野で活用されています。

四分位数が重要な理由

  • 外れ値の影響を受けにくい: 平均値と異なり、極端な値に左右されません
  • データの分布を把握できる: データがどのように散らばっているかを視覚的に理解できます
  • 比較分析に有効: 複数のデータセットを比較する際に便利です
  • 意思決定の基準: ビジネスや研究において客観的な判断基準になります

四分位数の種類

四分位数には以下の3つがあります。

第1四分位数(Q1)

データを小さい順に並べたとき、下から25%の位置にある値です。下側四分位数とも呼ばれます。

第2四分位数(Q2)

データの中央値にあたる、ちょうど真ん中(50%の位置)の値です。中央値(メディアン) と同じです。

第3四分位数(Q3)

データを小さい順に並べたとき、下から75%の位置にある値です。上側四分位数とも呼ばれます。

四分位範囲(IQR)

第3四分位数と第1四分位数の差を四分位範囲(Interquartile Range: IQR) といいます。

IQR = Q3 - Q1

四分位範囲は、データの中央50%がどれだけ散らばっているかを示す指標で、外れ値の検出にも使用されます。


四分位数の計算方法

基本的な計算手順

四分位数を求める基本的な手順は以下の通りです。

ステップ1: データを昇順に並べる

まず、データを小さい順に並べ替えます。

: 10, 15, 20, 25, 30, 35, 40, 45, 50

ステップ2: 位置を計算する

各四分位数の位置を以下の式で求めます。

  • Q1の位置 = (n + 1) × 0.25
  • Q2の位置 = (n + 1) × 0.50
  • Q3の位置 = (n + 1) × 0.75

※ n はデータの個数

ステップ3: 四分位数の値を求める

計算した位置が整数の場合は、その順番の値をそのまま使用します。 小数の場合は、前後の値を線形補間して求めます。

具体例で計算

データ: 10, 15, 20, 25, 30, 35, 40, 45, 50(9個)

Q1の計算:

  • 位置 = (9 + 1) × 0.25 = 2.5
  • 2番目の値(15)と3番目の値(20)の中間
  • Q1 = 15 + (20 – 15) × 0.5 = 17.5

Q2の計算:

  • 位置 = (9 + 1) × 0.50 = 5
  • 5番目の値
  • Q2 = 30

Q3の計算:

  • 位置 = (9 + 1) × 0.75 = 7.5
  • 7番目の値(40)と8番目の値(45)の中間
  • Q3 = 40 + (45 – 40) × 0.5 = 42.5

四分位範囲(IQR):

  • IQR = Q3 – Q1 = 42.5 – 17.5 = 25

Excelでの四分位数の求め方

Excelでは関数を使って簡単に四分位数を計算できます。

QUARTILE.INC関数(推奨)

=QUARTILE.INC(データ範囲, 順位)
  • 順位 = 1 → 第1四分位数(Q1)
  • 順位 = 2 → 第2四分位数(Q2、中央値)
  • 順位 = 3 → 第3四分位数(Q3)

使用例:

=QUARTILE.INC(A1:A9, 1)  // Q1を求める
=QUARTILE.INC(A1:A9, 2)  // Q2を求める
=QUARTILE.INC(A1:A9, 3)  // Q3を求める

QUARTILE.EXC関数

=QUARTILE.EXC(データ範囲, 順位)

QUARTILE.INC関数とは計算方法が若干異なります。一般的にはINC関数の使用が推奨されます。

PERCENTILE関数での代替

四分位数はパーセンタイル(百分位数)でも表現できます。

=PERCENTILE.INC(データ範囲, 0.25)  // Q1
=PERCENTILE.INC(データ範囲, 0.50)  // Q2
=PERCENTILE.INC(データ範囲, 0.75)  // Q3

四分位数の活用例

1. ビジネス分野

売上分析

  • 商品やサービスの売上分布を分析
  • 上位25%(Q3以上)の優良顧客の特定
  • 価格設定の参考データとして活用

給与・報酬の分析

  • 業界や職種別の給与水準の把握
  • 採用時の給与レンジの設定
  • 報酬の公平性の評価

2. 学術研究

テストスコアの分析

  • 学生の成績分布の把握
  • 上位・下位層の特定
  • 教育効果の測定

実験データの評価

  • 測定値の信頼性確認
  • 外れ値の検出
  • データの品質管理

3. 医療・健康分野

健康診断の基準値

  • 血圧、血糖値などの正常範囲の設定
  • 年齢別・性別の基準値作成
  • リスク評価の指標

4. 不動産・金融

不動産価格の分析

  • 地域別の価格帯の把握
  • 適正価格の判断基準
  • 投資判断の材料

株価・投資分析

  • ボラティリティの評価
  • リスク管理
  • ポートフォリオ分析

箱ひげ図との関係

四分位数は箱ひげ図(Box Plot) を作成する際の基本要素です。

箱ひげ図の構成要素

    最小値
      |
      |
    ┌─┐
    │ │ ← Q3(第3四分位数)
    │箱│
    ├─┤ ← Q2(中央値)
    │ │
    │ │ ← Q1(第1四分位数)
    └─┐
      |
      |
    最大値

箱ひげ図で分かること

  • 箱の高さ: 四分位範囲(IQR)= データの中央50%の散らばり
  • 箱の中の線: 中央値(Q2)の位置
  • ひげの長さ: データの範囲(外れ値を除く)
  • 外れ値: Q1 – 1.5×IQR 未満、またはQ3 + 1.5×IQR 以上の値

よくある質問

Q1: 四分位数と百分位数の違いは?

A: 四分位数は全体を4等分する3つの値(25%, 50%, 75%)ですが、百分位数(パーセンタイル)は全体を100等分する99個の値です。四分位数は百分位数の特定の位置(25th, 50th, 75thパーセンタイル)に相当します。

Q2: データ数が少ない場合でも使える?

A: 理論的には使えますが、データ数が少ない(10個未満など)と、四分位数の代表性が低くなります。最低でも20〜30個以上のデータがあることが望ましいです。

Q3: 外れ値はどう判定する?

A: 一般的には以下の基準で判定します。

  • 外れ値: Q1 – 1.5×IQR 未満、またはQ3 + 1.5×IQR 以上
  • 極端な外れ値: Q1 – 3×IQR 未満、またはQ3 + 3×IQR 以上

Q4: 四分位数と標準偏差、どちらを使うべき?

A: データの特性によって使い分けます。

  • 四分位数が適している場合: 外れ値が多い、分布が歪んでいる、ロバストな分析が必要
  • 標準偏差が適している場合: データが正規分布に近い、精密な分析が必要

まとめ

四分位数は、データ分析における基本的かつ重要な統計指標です。

重要ポイント

四分位数は3つの値: Q1(25%)、Q2(50%、中央値)、Q3(75%)

四分位範囲(IQR): Q3 – Q1で、データの散らばりを表す

外れ値に強い: 平均値よりもロバストな指標

幅広い応用: ビジネス、学術、医療など様々な分野で活用

Excelで簡単: QUARTILE.INC関数で瞬時に計算可能

箱ひげ図: 四分位数を視覚化した便利なツール

次のステップ

四分位数を理解したら、実際のデータで以下を試してみましょう。

  1. 手元のデータで四分位数を計算
  2. Excelで箱ひげ図を作成
  3. 外れ値の検出と分析
  4. 複数のデータセットを四分位数で比較

四分位数を活用することで、データの本質的な特徴を捉え、より的確な意思決定が可能になります。


関連キーワード: 統計学, データ分析, 中央値, 箱ひげ図, パーセンタイル, Excel関数, 外れ値, IQR, 四分位範囲, ビジネス分析

    らくらくPython塾 – 読むだけでマスター

    【現役エンジニア歓迎】プログラミング学習お悩み相談会

    【情報I】受験対策・お悩み相談会(オンライン・無料)

    【オンライン無料】ゼロから始めるPython爆速講座

    テックジム東京本校

    格安のプログラミングスクールといえば「テックジム」。
    講義動画なし、教科書なし。「進捗管理とコーチング」で効率学習。
    対面型でより早くスキル獲得、月額2万円のプログラミングスクールです。
    情報科目の受験対策指導もご用意しております。