如何从包含字典列表的DataFrame列中提取数据并创建新列

日期：2025-11-24 00:00 / 作者：霞舞

本文将指导如何在pandas dataframe中，将包含字典列表的列高效地展开为多个新列。我们将探讨两种主要策略，包括直接应用`str`访问器和`apply(pd.series)`，以及通过预设默认字典更稳健地处理空列表和缺失值的方法，以实现结构化的数据转换，从而满足从复杂嵌套数据中提取关键信息的需求。

在数据分析和处理过程中，我们经常会遇到DataFrame的某一列中存储着复杂的数据结构，例如列表嵌套字典。如何将这些嵌套结构展开为独立的列，是数据清洗和特征工程中的常见任务。本教程将详细介绍如何处理一个DataFrame列中包含字典列表的情况，并将其转换为扁平化的DataFrame结构。

问题描述与挑战

假设我们有一个Pandas DataFrame，其中包含一个名为stats的列。这个stats列的每个单元格都可能是一个列表，而列表内部又包含一个或多个字典。更复杂的是，有些列表可能是空的，或者字典中的某些键对应的值可能是None。

输入数据示例：

import pandas as pd

df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],
            [{"city": "Seattle", "last_time": 45678999876}]]
    }
)
print("原始DataFrame:")
print(df)

输出：

原始DataFrame:
                               stats
0  [{'city': None, 'last_time': 1234567}]
1                                    []
2  [{'city': 'Seattle', 'last_time': 45678999876}]

期望输出示例：

我们希望将stats列中的字典键（city和last_time）提取为新的列，并妥善处理空列表和None值，使其在输出中表示为缺失值（如NaN或None）。

      city      last_time
0      NaN     1234567.0
1     None           NaN
2  Seattle  45678999876.0

面临的挑战：

嵌套结构： stats列中是列表，列表内是字典，需要逐层解包。
空列表处理： 当stats列的某个元素是空列表[]时，如何避免错误并生成对应的缺失值。
None值处理： 字典中可能包含None值，需要确保它们在新的列中正确表示。
数据类型一致性： 展开后新列的数据类型需要保持合理。

方法一：直接使用 str 访问器与 apply(pd.Series)

Pandas的Series.str访问器提供了一种便捷的方式来处理包含字符串或类字符串（如列表）的Series。通过结合str[0]和apply(pd.Series)，我们可以高效地将列表中的第一个字典展开。

df['stats'].str[0]： 这一步利用str访问器来尝试获取stats列中每个列表的第一个元素。如果列表为空，它将返回NaN。如果列表包含字典，它将返回该字典。
.apply(pd.Series)： 接下来，对上一步得到的结果（一个包含字典和NaN的Series）应用pd.Series。pd.Series能够将字典转换为一个Series（或DataFrame的行），其中字典的键成为Series的索引（或DataFrame的列名）。当遇到NaN时，它会生成一个全为NaN的行。

代码示例：

# 方法一：直接使用 str 访问器与 apply(pd.Series)
output_df_method1 = df["stats"].str[0].apply(pd.Series)

print("\n方法一的输出:")
print(output_df_method1)

输出：

方法一的输出:
      city      last_time
0      NaN     1234567.0
1      NaN           NaN
2  Seattle  45678999876.0

特点分析：

简洁高效： 对于结构相对统一（列表中只有一个字典）的数据，这种方法非常简洁。
缺失值处理： 空列表[]被str[0]处理后会变为NaN，然后apply(pd.Series)会将其对应的city和last_time列都填充为NaN。字典中的None值在city列中转换为NaN，在last_time列中也转换为NaN（因为last_time是数值类型）。

方法二：结合 where 和默认字典处理缺失值

方法一在处理空列表时会将所有对应的输出列都设为NaN。如果我们需要对空列表产生的缺失值有更精细的控制（例如，希望city列显示None而不是NaN），或者希望确保所有行都有一个统一的字典结构以便apply(pd.Series)处理，可以结合使用where和预设的默认字典。

stats_series = df["stats"].str[0]： 同方法一，首先获取列表中的第一个元素。
templ = dict.fromkeys(["city", "last_time"])： 创建一个默认字典模板，包含所有期望的键，值为None。这个模板用于填充那些因空列表而产生的NaN。
stats_series.where(stats_series.notnull(), templ)： 使用where方法。如果stats_series中的元素不是NaN（即它是一个字典），则保留原值；如果它是NaN（即原始列表为空），则用templ字典替换它。这样确保了apply(pd.Series)接收到的所有元素都是字典。
.apply(pd.Series)： 对处理后的Series应用pd.Series，将字典展开为新列。

代码示例：

# 方法二：结合 where 和默认字典处理缺失值
stats_series = df["stats"].str[0]
# 创建一个默认字典，用于填充空列表对应的行
templ = dict.fromkeys(["city", "last_time"])

# 使用where方法，将NaN值（来自空列表）替换为默认字典
output_df_method2 = stats_series.where(stats_series.notnull(), templ).apply(pd.Series)

print("\n方法二的输出:")
print(output_df_method2)

输出：

方法二的输出:
      city      last_time
0      NaN     1234567.0
1     None           NaN
2  Seattle  45678999876.0

特点分析：

更精细的缺失值控制： 对于原始空列表对应的行，city列现在显示None，而last_time列由于其数值性质仍显示NaN。这更符合某些场景下对缺失值的语义要求。
健壮性： 确保了apply(pd.Series)总是接收到字典对象，避免了因NaN直接传递给apply可能引发的潜在问题（尽管pd.Series通常能很好地处理NaN）。

注意事项与最佳实践

数据类型转换：
- 当原始数据中存在整数（如last_time）与None/NaN混合时，Pandas会自动将该列的数据类型提升为浮点数（float64），因为NaN不能存在于整数类型中。
- city列包含字符串和None，通常会被推断为object类型。

处理列表中包含多个字典的情况：

上述两种方法都只提取了列表中的第一个字典（通过str[0]）。如果列表可能包含多个字典，并且你需要提取所有字典或特定位置的字典，则需要调整策略。

例如，要提取所有字典并创建多行，可以使用列表推导式结合pd.DataFrame.from_records：

# 示例：如果列表中有多个字典，且需要展开为多行
all_records = []
for index, row in df.iterrows():
    if row['stats']: # 检查列表是否为空
        for d in row['stats']:
            all_records.append(d)
    else:
        all_records.append({'city': None, 'last_time': None}) # 为空列表添加默认行
multi_row_df = pd.DataFrame.from_records(all_records)
print("\n处理多字典列表的示例输出 (此处仍按单字典处理):")
print(multi_row_df)

性能考虑：
- 对于非常大的DataFrame，apply方法虽然方便，但在某些情况下可能不如使用列表推导式然后通过pd.DataFrame.from_records或pd.json_normalize（如果数据是JSON格式）创建新的DataFrame高效。
- pd.json_normalize 是处理JSON-like嵌套数据结构的强大工具，如果你的数据源是JSON字符串或字典的列表，它通常是首选。

总结

本教程介绍了两种将DataFrame中包含字典列表的列展开为新列的有效方法。方法一简洁明了，适用于快速处理，但对空列表的处理结果统一为NaN。方法二通过引入默认字典和where方法，提供了更精细的缺失值控制，尤其是在需要区分None和NaN的场景下更为适用。在实际应用中，选择哪种方法取决于具体的数据结构、对缺失值的处理要求以及性能考量。理解这些方法的原理和适用场景，将有助于您更灵活地处理复杂的数据结构。