Pandas DataFrame徹底解説:構造理解から作成までをマスター! 🚀


 

データ分析の強力な味方であるPandas。その中心となるのがDataFrameです。DataFrameを理解することは、Pandasを使ったデータ操作の第一歩であり、効率的なデータ分析には欠かせません。

この記事では、DataFrameの基本的な構造から、様々な方法での作成、そしてその応用例までをわかりやすく解説します。


 

Pandas DataFrameとは?

 

PandasのDataFrameは、表形式のデータを扱うための2次元のデータ構造です。まるでスプレッドシートやデータベースのテーブルのように、**行(row)列(column)**で構成されています。

 

DataFrameの主要な要素

 

DataFrameは以下の3つの主要な要素で構成されます。

  • インデックス (Index): 各行を一意に識別するためのラベルです。デフォルトでは0から始まる整数値が割り当てられますが、日付や文字列など、任意のデータ型を設定できます。

  • 列 (Columns): 各列のデータを示すためのラベルです。通常はデータの意味を表す文字列が使われます。

  • 値 (Values): DataFrameに格納されている実際のデータです。数値、文字列、ブール値など、様々なデータ型を扱うことができます。

この構造により、特定の行や列、あるいはセル単位でのデータの選択、フィルタリング、加工が簡単に行えます。


 

DataFrameの様々な作成方法 🛠️

 

DataFrameを作成する方法はいくつかありますが、ここでは特によく使われる代表的な方法をご紹介します。

 

1. 辞書(Dictionary)から作成する

 

最も一般的で直感的な方法の一つです。辞書のキーが列名に、値がその列のデータ(リストやNumpy配列など)に対応します。

Python
 
import pandas as pd

# 辞書を準備
data = {
    '名前': ['Alice', 'Bob', 'Charlie'],
    '年齢': [25, 30, 35],
    '都市': ['Tokyo', 'Osaka', 'Nagoya']
}

# DataFrameを作成
df = pd.DataFrame(data)
print(df)

 

2. リストのリスト(List of Lists)から作成する

 

各内側のリストが1つの行を表し、その要素が列のデータに対応します。列名(columns引数)を別途指定する必要があります。

Python
 
import pandas as pd

# リストのリストを準備
data = [
    ['Alice', 25, 'Tokyo'],
    ['Bob', 30, 'Osaka'],
    ['Charlie', 35, 'Nagoya']
]

# DataFrameを作成(列名を指定)
df = pd.DataFrame(data, columns=['名前', '年齢', '都市'])
print(df)

 

3. CSVファイルから作成する

 

実務で最もよく使われる方法の一つです。pd.read_csv()関数を使えば、CSVファイルを簡単にDataFrameとして読み込めます。

Python
 
import pandas as pd
import io # StringIOを使ってメモリ上でCSVデータをシミュレート

# サンプルCSVデータを文字列として準備
csv_data = """名前,年齢,都市
Alice,25,Tokyo
Bob,30,Osaka
Charlie,35,Nagoya
"""

# StringIOを使って文字列からDataFrameを読み込み
df = pd.read_csv(io.StringIO(csv_data))
print(df)

# 実際のファイルから読み込む場合は以下のようにパスを指定します
# df = pd.read_csv('your_file.csv')

 

4. Excelファイルから作成する

 

Excelファイル(.xlsx, .xls)もPandasで直接読み込めます。pd.read_excel()関数を使用します。

Python
 
import pandas as pd

# Excelファイルを読み込む(シート名を指定することも可能)
# df = pd.read_excel('your_file.xlsx', sheet_name='Sheet1')

# 例として、read_csvで代替(Excelファイルがないため)
# 実際には上記のようにread_excelを使用します
import io
excel_data_simulate = """Name,Age,City
David,40,Sapporo
Eve,28,Fukuoka
"""
df = pd.read_csv(io.StringIO(excel_data_simulate))
print(df)

 

5. Seriesから作成する

 

複数のPandas Seriesオブジェクトを結合してDataFrameを作成することもできます。各SeriesDataFrameの1つの列になります。

Python
 
import pandas as pd

# Seriesを準備
s_name = pd.Series(['Alice', 'Bob', 'Charlie'], name='名前')
s_age = pd.Series([25, 30, 35], name='年齢')

# 辞書にSeriesを格納してDataFrameを作成
df = pd.DataFrame({'名前': s_name, '年齢': s_age})
print(df)

 

まとめ

 

PandasのDataFrameは、その柔軟な構造と多様な作成方法により、あらゆる種類の表形式データを効率的に扱うことを可能にします。辞書やリストから手動でデータを作成する練習から始め、CSVやExcelファイルなどの実データを用いた読み込みに挑戦することで、Pandasを使ったデータ分析のスキルは飛躍的に向上するでしょう。

これらの基本的な知識を身につけることで、次のステップであるデータ操作や分析にスムーズに進むことができます。