Pythonでの箱ひげ図の基礎

Pythonでの箱ひげ図の基礎

箱ひげ図(Boxplot)は、データの分布や外れ値を視覚的に表現するためのグラフです。Pythonでは、matplotlibseabornなどのライブラリを使用して簡単に箱ひげ図を作成できます。この記事では、Pythonでの箱ひげ図の作成方法と、箱ひげ図の基本的な要素について解説します。

箱ひげ図の基本構造

箱ひげ図は、データセットの分布を視覚化するためのツールで、以下の要素で構成されています:

  • 箱(Box): データの第1四分位数(Q1)と第3四分位数(Q3)の間を示します。箱の中の線は中央値(第2四分位数、Q2)を表します。
  • ひげ(Whiskers): 箱の外に伸びる線で、データの範囲を示します。一般的にはQ1 – 1.5 * IQR(四分位範囲)からQ3 + 1.5 * IQRまでの範囲をカバーします。
  • 外れ値(Outliers): ひげの範囲外にあるデータポイントで、通常は個別の点として表示されます。

Pythonでの箱ひげ図の作成

Pythonで箱ひげ図を作成するには、matplotlibライブラリを使用するのが一般的です。seabornライブラリも、より美しい箱ひげ図を簡単に作成できる便利なツールです。

Matplotlibを使った箱ひげ図の作成

以下は、matplotlibを使用してシンプルな箱ひげ図を作成する例です。

# Matplotlibを使った箱ひげ図の作成
import matplotlib.pyplot as plt

# データのサンプル
data = [1, 2, 5, 7, 8, 9, 10, 12, 13, 15, 18, 20, 22]

# 箱ひげ図の作成
plt.boxplot(data)

# タイトルとラベルの設定
plt.title('Boxplot Example')
plt.ylabel('Values')

# 図の表示
plt.show()

このコードでは、dataというリストに数値データを用意し、plt.boxplot()で箱ひげ図を作成しています。plt.show()を呼び出すことで、箱ひげ図が表示されます。

Seabornを使った箱ひげ図の作成

seabornライブラリを使用すると、より洗練された箱ひげ図を簡単に作成できます。seabornmatplotlibの上に構築されたライブラリで、スタイルが強化され、便利な機能が追加されています。

# Seabornを使った箱ひげ図の作成
import seaborn as sns
import matplotlib.pyplot as plt

# データのサンプル
data = [1, 2, 5, 7, 8, 9, 10, 12, 13, 15, 18, 20, 22]

# Seabornで箱ひげ図の作成
sns.boxplot(data=data)

# タイトルとラベルの設定
plt.title('Seaborn Boxplot Example')
plt.xlabel('Dataset')
plt.ylabel('Values')

# 図の表示
plt.show()

この例では、seabornboxplot()関数を使用して箱ひげ図を作成しています。seabornを使うことで、より美しいデフォルトのスタイルで箱ひげ図が描画されます。

箱ひげ図のカスタマイズ

Pythonの箱ひげ図は、さまざまな方法でカスタマイズできます。例えば、ひげの範囲を変更したり、箱の色を指定したり、複数のデータセットを比較する箱ひげ図を作成することができます。

複数のデータセットを比較する箱ひげ図の作成

複数のデータセットを同時に比較する箱ひげ図を作成することも可能です。

# 複数のデータセットを比較する箱ひげ図の作成
import matplotlib.pyplot as plt

# 複数のデータセット
data1 = [1, 2, 5, 7, 8, 9, 10]
data2 = [2, 3, 4, 5, 6, 7, 8]
data3 = [5, 6, 7, 8, 9, 10, 11]

# データをまとめて箱ひげ図を作成
plt.boxplot([data1, data2, data3])

# タイトルとラベルの設定
plt.title('Multiple Boxplot Example')
plt.xticks([1, 2, 3], ['Dataset 1', 'Dataset 2', 'Dataset 3'])
plt.ylabel('Values')

# 図の表示
plt.show()

この例では、複数のデータセットdata1data2data3をまとめて箱ひげ図にプロットしています。これにより、複数のデータセット間の分布の違いを視覚的に比較することができます。

まとめ

箱ひげ図は、データの分布や外れ値を視覚的に理解するための強力なツールです。Pythonではmatplotlibseabornを使って簡単に箱ひげ図を作成できます。基本的な箱ひげ図の構造を理解し、Pythonでの作成方法をマスターすることで、データ分析において重要な洞察を得ることができるでしょう。

関連記事

コメント

この記事へのコメントはありません。