データ分析を行う時に、集計したデータを見て、「明らかに違う値がある!」と感じたことやデータ分析の結果がおかしいと感じ、原因が分からなかったことは無いでしょうか。
こうした経験がある時は、「外れ値」が原因である可能性があります。
外れ値とは、データの中で他の値と極端に離れた値のことです。例えば、テストの平均点が80点台なのに対し、1人だけ30点だった場合、30点が外れ値となります。
外れ値は、データ分析に大きな影響を与える可能性があります。例えば、外れ値を含めて平均値を計算すると、データ全体の傾向が歪んでしまう可能性があるからです。
この記事では、下記の点をまとめています。
外れ値とは何か
外れ値の種類
外れ値の判定方法
外れ値の取り扱い方
さらに、記事後半では、Excelを使った外れ値の判定方法も紹介します。
データ分析でよくある「外れ値」を理解して、分析スキルを磨きましょう。
外れ値とは?
外れ値とは、データの中で他の値と極端に離れた値のことです。英語では「outlier」と呼ばれています。外れ値は、測定ミス、記録ミス、データの異常、データの偏りなどの要因で発生します。外れ値は、データ分析時に外れ値を含めて集計すると、データ全体の傾向が歪んでしまう可能性があります。
外れ値の種類
外れ値には、異常値と極端値の2種類があります。
異常値とは、測定ミスや記録ミスなどによって発生した、明らかに誤った値のことで、極端値とは、データの分布から極端に離れた値のことです。
異常値は、原因が明確であれば、データから除外しても問題ありませんが、極端値は、データの偏りを反映している可能性があるため、慎重に扱う必要があります。
外れ値の判定方法
外れ値の判定方法には、幾つかの方法があります。代表的なモデルをリストアップします。
- 標準偏差
データの平均値からの標準偏差が2倍以上離れた値を外れ値とする
- 箱ひげ図
箱ひげ図の「ひげ」の外側にある値を外れ値とする
- 検定
Smirnov-Grubbs検定(スミルノフ・グラブス検定)やDixon検定などの検定を用いて外れ値を判定する
- クラスター分析
データをいくつかのグループに分け、各グループの外れ値を判定する
これらの方法の中で、最も簡単なのは、箱ひげ図を用いる方法です。
外れ値の取り扱い方
先に記載しましたが、外れ値は、必ずしも除外する必要はありません。なぜなら、外れ値がデータの偏りを反映している場合は、外れ値を含めたまま分析を行うことで、より深い洞察を得られることがあるからです。
外れ値の取り扱いについては、外れ値が発生した原因を検証した上で、外れ値がデータ分析に与える影響を考慮する必要があります。外れ値を除外する場合は、その理由を明確にしておくことが重要です。
四分位範囲 (IQR) を用いた外れ値の判定方法
四分位範囲 (IQR) は、データのばらつきを表す指標の一つです。IQRを用いて、外れ値を判定することができます。
IQRを用いて外れ値を判定するには、以下の式を用います。
まずは、データを小さい順に並べ替え、データを4等分する境界となる値を四分位数と言います。
- 第1四分位数 (Q1)
データのちょうど真ん中の位置にある値
- 第2四分位数 (Q2)
データの中央値
- 第3四分位数 (Q3)
データの75%の位置にある値
この四分位数は、ExcelのQUARTILE関数を使うと簡単に求めることができます。
IQRは、第3四分位数から第1四分位数を引いて計算します。
IQR = Q3 – Q1
最後に、以下の式を使って外れ値を判定することができます。
下限: Q1 – 1.5 × IQR
上限: Q3 + 1.5 × IQR
IQRは、データのばらつきを表す指標であり、箱ひげ図を用いて簡単に求めることができます。
箱ひげ図の描き方
以下の手順で、箱ひげ図を描きます。
横軸にデータの種類を並べます。
箱の下側をQ1、上側をQ3の位置に描きます。
箱の中央に中央値の線を描きます。
箱の上下からひげを伸ばします。
ひげは、Q1 – 1.5 × IQRとQ3 + 1.5 × IQRの位置に描きます。
外れ値があれば、ひげの外側に点を打ちます。
Excelを使って、外れ値を判定する方法
Excelで外れ値を判定するには、箱ひげ図を用いる方法が簡単です。
箱ひげ図の「ひげ」の外側にある値が外れ値となりますが、箱ひげ図の箱の幅を表す指標がIQRとなります。
次の手順で、Excelで箱ひげ図を作成することができます。
まずは、外れ値を見つけたいデータを開きます。次に、箱ひげ図というグラフを作ります。箱ひげ図は、データの分布を視覚的に表現するのに役立ちます。
箱ひげ図を作る手順
1)外れ値を見つけたいデータを選択します。
2)挿入タブをクリックします。
3)グラフのグループから箱ひげ図を選択します。
4)箱ひげ図を選択します。
箱ひげ図ができたら、以下の点を確認します。
- 箱の中央線
データの中央値を表します。
- 箱の幅
データの四分位範囲 (IQR)を表します。IQRは、データのばらつきを表す指標です。
- ひげ
箱の両端から伸びている線です。ひげは、中央値から1.5倍のIQRまでの範囲を表します。
- 外れ値
ひげの外側にある点です。
Excelを使って外れ値を見つける方法は簡単です。今回紹介した手順を参考に、ぜひ外れ値を見つけて、データ分析の精度を向上させてください。