Python セット(set)の完全ガイド:基本操作から実践応用まで徹底解説
Pythonのセット(set)は、重複を許さない要素の集合を表現するデータ型です。数学の集合論に基づいた操作が可能で、データの重複除去や集合演算において非常に強力な機能を提供します。
本記事では、Python初心者から中級者まで理解できるよう、セットの基本的な使い方から実践的な応用例まで詳しく解説します。
セット(set)とは
セットは、順序を持たず重複を許さない要素の集合を表すPythonの組み込みデータ型です。数学の集合と同様の操作(和集合、積集合、差集合など)を効率的に実行できます。
セットの特徴
- 重複不可: 同じ要素は一つだけ保持
- 順序なし: 要素の順序は保証されない
- 可変: 要素の追加・削除が可能
- ハッシュ可能な要素のみ: 数値、文字列、タプルなど
セットの作成方法
基本的な作成
# 波括弧を使用
numbers = {1, 2, 3, 4, 5}
print(numbers) # {1, 2, 3, 4, 5}
set()関数を使用
# リストから作成
my_list = [1, 2, 2, 3, 3, 4]
unique_set = set(my_list)
print(unique_set) # {1, 2, 3, 4}
文字列からセット作成
text = "hello"
char_set = set(text)
print(char_set) # {'h', 'e', 'l', 'o'}
空のセット作成
empty_set = set() # {}は辞書になるため注意
print(type(empty_set)) # <class 'set'>
基本操作
要素の追加
fruits = {'apple', 'banana'}
fruits.add('orange')
print(fruits) # {'apple', 'banana', 'orange'}
要素の削除
numbers = {1, 2, 3, 4, 5}
numbers.remove(3) # 存在しない場合はエラー
numbers.discard(6) # 存在しない場合もエラーなし
print(numbers) # {1, 2, 4, 5}
要素の存在確認
colors = {'red', 'blue', 'green'}
print('red' in colors) # True
print('yellow' in colors) # False
集合演算
和集合(Union)
set1 = {1, 2, 3}
set2 = {3, 4, 5}
union_set = set1 | set2 # または set1.union(set2)
print(union_set) # {1, 2, 3, 4, 5}
積集合(Intersection)
set1 = {1, 2, 3, 4}
set2 = {3, 4, 5, 6}
intersection_set = set1 & set2 # または set1.intersection(set2)
print(intersection_set) # {3, 4}
差集合(Difference)
set1 = {1, 2, 3, 4}
set2 = {3, 4, 5, 6}
difference_set = set1 - set2 # または set1.difference(set2)
print(difference_set) # {1, 2}
対称差集合(Symmetric Difference)
set1 = {1, 2, 3}
set2 = {3, 4, 5}
sym_diff = set1 ^ set2 # または set1.symmetric_difference(set2)
print(sym_diff) # {1, 2, 4, 5}
重複除去での活用
リストの重複除去
numbers = [1, 2, 2, 3, 3, 4, 5, 5]
unique_numbers = list(set(numbers))
print(unique_numbers) # [1, 2, 3, 4, 5](順序は保証されない)
文字列の重複文字除去
text = "programming"
unique_chars = set(text)
print(len(unique_chars)) # 8(重複しない文字数)
データベースIDの重複除去
user_ids = [101, 102, 101, 103, 102, 104]
unique_ids = set(user_ids)
print(f"ユニークユーザー数: {len(unique_ids)}") # 4
条件チェックでの活用
部分集合の判定
all_permissions = {'read', 'write', 'execute', 'delete'}
user_permissions = {'read', 'write'}
has_permission = user_permissions.issubset(all_permissions)
print(has_permission) # True
上位集合の判定
admin_permissions = {'read', 'write', 'execute', 'delete'}
basic_permissions = {'read'}
is_admin = admin_permissions.issuperset(basic_permissions)
print(is_admin) # True
共通要素の存在確認
required_skills = {'Python', 'SQL', 'Git'}
candidate_skills = {'Python', 'JavaScript', 'HTML'}
has_common = not required_skills.isdisjoint(candidate_skills)
print(has_common) # True
データ分析での応用
カテゴリの分析
category_a = {'product1', 'product2', 'product3'}
category_b = {'product2', 'product4', 'product5'}
overlap = len(category_a & category_b)
print(f"共通商品数: {overlap}") # 1
顧客分析
customers_jan = {'A001', 'A002', 'A003', 'A004'}
customers_feb = {'A002', 'A003', 'A005', 'A006'}
retained = customers_jan & customers_feb
new_customers = customers_feb - customers_jan
print(f"継続顧客: {len(retained)}") # 2
print(f"新規顧客: {len(new_customers)}") # 2
Webアプリケーションでの活用
権限管理
def check_access(user_roles, required_roles):
return not set(required_roles).isdisjoint(set(user_roles))
user = ['user', 'editor']
required = ['admin', 'editor']
access = check_access(user, required)
print(access) # True
タグシステム
post_tags = {'python', 'programming', 'tutorial'}
search_tags = {'python', 'beginner'}
relevance = len(post_tags & search_tags) / len(post_tags | search_tags)
print(f"関連度: {relevance:.2f}") # 0.25
ファイル処理での活用
ファイル拡張子の分析
file_list = ['doc1.txt', 'image.jpg', 'data.csv', 'doc2.txt']
extensions = {file.split('.')[-1] for file in file_list}
print(extensions) # {'txt', 'jpg', 'csv'}
設定の比較
default_config = {'debug', 'logging', 'cache'}
user_config = {'debug', 'profiling', 'cache'}
missing = default_config - user_config
extra = user_config - default_config
print(f"不足設定: {missing}") # {'logging'}
print(f"追加設定: {extra}") # {'profiling'}
パフォーマンス特性
検索速度
import time
# リストでの検索(O(n))
large_list = list(range(100000))
# セットでの検索(O(1))
large_set = set(range(100000))
# セットの方が高速
print(99999 in large_set) # 高速
メモリ効率
import sys
numbers_list = [1, 2, 3, 4, 5] * 1000
numbers_set = set(numbers_list)
print(f"リスト: {sys.getsizeof(numbers_list)} bytes")
print(f"セット: {sys.getsizeof(numbers_set)} bytes")
型変換と互換性
他のデータ型との変換
# タプル ⇔ セット
tuple_data = (1, 2, 3, 2, 1)
set_data = set(tuple_data) # {1, 2, 3}
back_to_tuple = tuple(set_data) # (1, 2, 3)
ソート済みリストへの変換
unsorted_set = {5, 1, 3, 2, 4}
sorted_list = sorted(unsorted_set)
print(sorted_list) # [1, 2, 3, 4, 5]
よくあるエラーと対処法
unhashable type エラー
try:
my_set = {[1, 2, 3]} # リストはハッシュ化不可
except TypeError:
my_set = {(1, 2, 3)} # タプルを使用
print(my_set) # {(1, 2, 3)}
KeyError の対処
my_set = {1, 2, 3}
try:
my_set.remove(4) # 存在しない要素
except KeyError:
print("要素が存在しません")
# または discard() を使用
my_set.discard(4) # エラーなし
実際のプロジェクトでの活用例
APIレスポンスの処理
def merge_api_data(response1, response2):
ids1 = set(item['id'] for item in response1)
ids2 = set(item['id'] for item in response2)
common_ids = ids1 & ids2
return len(common_ids)
データ検証
def validate_required_fields(data, required):
provided = set(data.keys())
required_set = set(required)
missing = required_set - provided
if missing:
raise ValueError(f"必須フィールドが不足: {missing}")
return True
ログ分析
def analyze_user_behavior(log_entries):
unique_users = set(entry['user_id'] for entry in log_entries)
unique_pages = set(entry['page'] for entry in log_entries)
return len(unique_users), len(unique_pages)
高度な使用テクニック
セット内包表記
numbers = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
even_squares = {x**2 for x in numbers if x % 2 == 0}
print(even_squares) # {4, 16, 36, 64, 100}
複数セットの演算
sets = [{1, 2}, {2, 3}, {3, 4}]
intersection_all = set.intersection(*sets)
union_all = set.union(*sets)
print(intersection_all) # set()(空集合)
print(union_all) # {1, 2, 3, 4}
デバッグとテスト
セットの内容確認
def debug_set_operations(set1, set2):
print(f"Set1: {set1}")
print(f"Set2: {set2}")
print(f"Union: {set1 | set2}")
print(f"Intersection: {set1 & set2}")
print(f"Difference: {set1 - set2}")
単体テストの例
import unittest
class TestSetOperations(unittest.TestCase):
def test_union(self):
set1 = {1, 2}
set2 = {2, 3}
result = set1 | set2
self.assertEqual(result, {1, 2, 3})
まとめ
Pythonのセット(set)は、重複を許さない要素の集合を効率的に扱うための強力なデータ型です。重複除去から集合演算、条件チェックまで幅広い用途で活用できます。
重要なポイント:
- 重複要素の自動除去機能
- 高速な要素検索(O(1))
- 数学的集合演算の豊富なサポート
- ハッシュ可能な要素のみ格納可能
- 順序は保証されない
本記事で紹介した様々な使用例を参考に、実際のプロジェクトでセットを効果的に活用してください。データの重複処理や集合演算において、より効率的で読みやすいコードを作成できるでしょう。
■プロンプトだけでオリジナルアプリを開発・公開してみた!!
■AI時代の第一歩!「AI駆動開発コース」はじめました!
テックジム東京本校で先行開始。
■テックジム東京本校
「武田塾」のプログラミング版といえば「テックジム」。
講義動画なし、教科書なし。「進捗管理とコーチング」で効率学習。
より早く、より安く、しかも対面型のプログラミングスクールです。
<短期講習>5日で5万円の「Pythonミニキャンプ」開催中。
<月1開催>放送作家による映像ディレクター養成講座
<オンライン無料>ゼロから始めるPython爆速講座



