コラム

HOME
コラム
【Pandasデータ永続化】DataFrame・Seriesをpickleで高速保存＆読み込み！

2025年8月16日 / 最終更新日 : 2025年8月16日 fujifuji コラム

【Pandasデータ永続化】DataFrame・Seriesをpickleで高速保存＆読み込み！

データ分析のワークフローにおいて、大規模なPandas DataFrameやSeriesを扱うことは日常茶飯事です。データの読み込みや複雑な前処理には時間がかかるため、一度処理したデータを効率的に保存し、必要に応じて素早く読み込めることは、作業の生産性を大きく左右します。

Pandasは、このようなニーズに応えるため、Pythonの標準的なオブジェクトシリアライズ形式であるPickleを利用した保存・読み込み機能を提供しています。具体的には、DataFrameやSeriesをPickle形式でファイルに保存する**to_pickle()メソッドと、保存されたPickleファイルを読み込むread_pickle()**関数です。この記事では、これらの機能の基本的な使い方から、メリット・デメリット、そして知っておくと便利な応用例まで、短いサンプルコードと丁寧な解説を交えてご紹介します。

Pickleとは？なぜPandasデータの保存に使うのか？

Pickleは、Pythonオブジェクトをバイトストリームに変換して保存（シリアライズ）し、後でそのバイトストリームを元のPythonオブジェクトに復元（デシリアライズ）するためのPython標準ライブラリです。

なぜPandasデータの保存にPickleを使うのでしょうか？

高速な保存・読み込み: CSVやExcelなどのテキストベースの形式に比べて、Pickleはデータの型情報をそのまま保存するため、読み込みが非常に高速です。特に大規模な数値データや複雑なデータ型（MultiIndexなど）を含むDataFrameの場合に顕著な差が出ます。
データ構造の完全な保持: DataFrameのインデックス、カラム名、データ型（dtypes）、MultiIndexなどの複雑な構造を忠実に再現して保存・読み込みできます。これにより、保存前と全く同じ状態でデータを復元できます。
Pythonに特化: Python環境内でのデータ共有や一時保存に最適です。

デメリット

Python依存: Pickle形式はPython固有の形式であり、他のプログラミング言語（R, Javaなど）からは直接読み込むことができません。
セキュリティリスク: 信頼できないソースから提供されたPickleファイルを読み込むと、悪意のあるコードが実行される可能性があります。インターネット上からダウンロードしたPickleファイルを安易に読み込まないように注意が必要です。

1. DataFrame/SeriesをPickleファイルに保存する: `to_pickle()`

to_pickle()メソッドは、DataFrameまたはSeriesを.pkl拡張子のPickleファイルとして保存します。

基本的な使い方

Python 

import pandas as pd
import numpy as np
import os # ファイル操作のためにインポート

# サンプルDataFrameの作成
df_data = pd.DataFrame({
    '商品ID': ['A001', 'A002', 'A003'],
    '価格': [1200, 1500, 800],
    '在庫数': [50, 30, 70],
    '最終更新日': pd.to_datetime(['2023-01-01', '2023-01-05', '2023-01-03'])
})
print("元のDataFrame:\n", df_data)
print("データ型:\n", df_data.dtypes)

# 保存先のファイルパスを指定
file_path_df = 'my_dataframe.pkl'

# DataFrameをPickle形式で保存
df_data.to_pickle(file_path_df)
print(f"\nDataFrameを '{file_path_df}' に保存しました。")

# Seriesも同様に保存可能
s_data = pd.Series([10, 20, 30], name='my_series')
file_path_s = 'my_series.pkl'
s_data.to_pickle(file_path_s)
print(f"Seriesを '{file_path_s}' に保存しました。")

解説:

df_data.to_pickle(file_path_df): DataFrame df_dataを、指定したパスmy_dataframe.pklにPickle形式で保存します。
保存されたファイルは、バイナリ形式であるため、テキストエディタで開いても内容は読めません。

2. PickleファイルからDataFrame/Seriesを読み込む: `read_pickle()`

保存したPickleファイルは、pd.read_pickle()関数を使って元のDataFrameやSeriesとして簡単に読み込むことができます。

基本的な使い方

Python 

# 保存したPickleファイルを読み込む
df_loaded = pd.read_pickle(file_path_df)
print(f"\n'{file_path_df}' からDataFrameを読み込みました:\n", df_loaded)
print("読み込み後のデータ型:\n", df_loaded.dtypes) # データ型も完全に復元されていることを確認

s_loaded = pd.read_pickle(file_path_s)
print(f"\n'{file_path_s}' からSeriesを読み込みました:\n", s_loaded)
print("読み込み後のデータ型:\n", s_loaded.dtype) # データ型も完全に復元されていることを確認

# 保存したファイルを削除 (オプション)
if os.path.exists(file_path_df):
    os.remove(file_path_df)
    print(f"\n'{file_path_df}' を削除しました。")
if os.path.exists(file_path_s):
    os.remove(file_path_s)
    print(f"'{file_path_s}' を削除しました。")

解説:

pd.read_pickle(file_path_df): 指定したパスのPickleファイルを読み込み、元のDataFrameオブジェクトを復元します。
注目すべきは、元のDataFrameのdtypes（データ型）やインデックス、カラム名が完全に保持された状態で読み込まれる点です。これは、日付時刻型など、複雑なデータ型を扱う場合に特に強力です。

3. `pickle`活用のヒントと注意点

大規模データでのパフォーマンス比較

特に数百万行を超えるような大規模データセットの場合、Pickleの読み込み速度はCSVやExcelをはるかに凌駕します。

Python 

# 大規模なDataFrameを作成
large_df = pd.DataFrame(np.random.rand(1_000_000, 5), columns=[f'col_{i}' for i in range(5)])
large_file_path = 'large_dataframe.pkl'

# Pickleで保存
%time large_df.to_pickle(large_file_path)

# Pickleで読み込み
%time loaded_large_df = pd.read_pickle(large_file_path)

# 比較のためにCSVで保存・読み込み (コメントアウトして実行可能)
# large_csv_path = 'large_dataframe.csv'
# %time large_df.to_csv(large_csv_path, index=False)
# %time loaded_large_csv_df = pd.read_csv(large_csv_path)

if os.path.exists(large_file_path):
    os.remove(large_file_path)

解説:

Jupyter環境などで%timeマジックコマンドを使うと、その行の実行時間を計測できます。この例では、Pickleでの保存・読み込みがいかに高速であるかを確認できます。

セキュリティに関する再確認

信頼できないソースから得たPickleファイルは絶対に開かないでください。 悪意のあるPickleファイルは、システム上で任意のコードを実行する可能性があります。このセキュリティリスクは非常に重要であり、Pickleの最大の弱点です。

互換性

異なるPythonバージョンやPandasバージョン間でPickleファイルをやり取りする場合、互換性の問題が発生する可能性があります。可能であれば、同じ環境で保存・読み込みを行うのが最も安全です。長期的なデータ保存や異なるシステム間でのデータ共有には、ParquetやHDF5など、より汎用的な形式を検討することをお勧めします。

まとめ

Pandasのto_pickle()メソッドとread_pickle()関数は、DataFrameやSeriesをPython環境内で効率的に保存・読み込みするための非常に便利な機能です。特に、大規模なデータや複雑なデータ構造を扱う場合に、その高速性とデータ構造の完全な保持能力は大きなメリットとなります。

しかし、その手軽さゆえにセキュリティリスクやバージョン間の互換性の問題も考慮に入れる必要があります。Pickleを賢く活用し、あなたのデータ分析ワークフローをさらにスムーズで効率的なものにしていきましょう。

プログラミング学習に関するお役立ちコンテンツ

カテゴリー: コラム

コラム

2025年8月16日

コラム

2025年8月16日

【Pandasデータ永続化】DataFrame・Seriesをpickleで高速保存＆読み込み！

Pickleとは？なぜPandasデータの保存に使うのか？

デメリット

1. DataFrame/SeriesをPickleファイルに保存する: `to_pickle()`

基本的な使い方

2. PickleファイルからDataFrame/Seriesを読み込む: `read_pickle()`

基本的な使い方

3. `pickle`活用のヒントと注意点

大規模データでのパフォーマンス比較

セキュリティに関する再確認

互換性

まとめ

プログラミング学習に関するお役立ちコンテンツ

【Pandasデータ分析】DataFrame・Seriesを「順位付け」するrank()メソッドでランキングを生成 🏆

【Pandasデータ分析】quantile()でデータの分布を深く理解！分位数・パーセンタイルを簡単取得 📈

Pickleとは？なぜPandasデータの保存に使うのか？

デメリット

1. DataFrame/SeriesをPickleファイルに保存する: to_pickle()

基本的な使い方

2. PickleファイルからDataFrame/Seriesを読み込む: read_pickle()

基本的な使い方

3. pickle活用のヒントと注意点

大規模データでのパフォーマンス比較

セキュリティに関する再確認

互換性

まとめ

プログラミング学習に関するお役立ちコンテンツ

【Pandasデータ分析】DataFrame・Seriesを「順位付け」するrank()メソッドでランキングを生成 🏆

【Pandasデータ分析】quantile()でデータの分布を深く理解！分位数・パーセンタイルを簡単取得 📈

1. DataFrame/SeriesをPickleファイルに保存する: `to_pickle()`

2. PickleファイルからDataFrame/Seriesを読み込む: `read_pickle()`

3. `pickle`活用のヒントと注意点