pandas ：检测一个DF和另一个DF之间缺失的列-白红宇的个人博客

发布日期：2025-05-01 20:27:18 浏览次数：2 分类：技术文章

本文共 1243 字，大约阅读时间需要 4 分钟。

pandas ：检测一个DF和另一个DF之间缺失的列

在Python中，我们可以使用pandas库中的columns属性来获取DataFrame的所有列名，然后通过比较两个列表的差异来找出缺失的列。以下是一个详细的步骤：

首先，我们需要导入pandas库：

import pandas as pd

然后，我们可以创建两个DataFrame，一个用于存储原始数据，另一个用于存储我们想要检测的缺失列的数据。例如：

data = {
       'A': [1, 2, 3],    'B': [4, 5, 6],    'C': [7, 8, 9]}df_original = pd.DataFrame(data)data_missing = {
       'A': [1, 2],    'C': [7, 9]}df_missing = pd.DataFrame(data_missing)

现在，我们可以使用columns属性来获取两个DataFrame的所有列名：

original_cols = df_original.columnsmissing_cols = df_missing.columns

最后，我们可以通过比较这两个列表的差异来找出缺失的列：

missing_in_original = list(set(original_cols) - set(missing_cols))print("Missing columns in original DataFrame:", missing_in_original)

这个代码会输出所有在原始DataFrame中但在缺失的DataFrame中存在的列名。

以下是完整的代码示例：

import pandas as pddata = {
       'A': [1, 2, 3],    'B': [4, 5, 6],    'C': [7, 8, 9]}df_original = pd.DataFrame(data)data_missing = {
       'A': [1, 2],    'C': [7, 9]}df_missing = pd.DataFrame(data_missing)original_cols = df_original.columnsmissing_cols = df_missing.columnsmissing_in_original = list(set(original_cols) - set(missing_cols))print("Missing columns in original DataFrame:", missing_in_original)

如果你的DataFrame非常大，这种方法可能会比较慢。在这种情况下，你可能需要考虑使用更高效的方法来找出缺失的列，例如在数据库中创建一个视图来存储原始数据和缺失的数据，然后在视图中执行查询来找出缺失的列。

上一篇：Pandas-从具有嵌套列表列表的现有列创建动态列时出错

下一篇：pandas ：按移位分组和累加和(GroupBy Shift And Cumulative Sum)

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章