Pandas中的GROUP BY AND SUM不丢失列-白红宇的个人博客

Pandas中的GROUP BY AND SUM不丢失列

发布日期：2025-05-01 21:05:34 浏览次数：2 分类：技术文章

本文共 1338 字，大约阅读时间需要 4 分钟。

Pandas中的GROUP BY AND SUM不丢失列

在Python的pandas库中，我们可以使用`groupby()`函数进行分组操作，然后使用`sum()`函数进行求和操作。但是，当我们使用`groupby()`和`sum()`时，我们可能会发现一些问题：

1. 当我们在`groupby()`之后使用了其他的聚合函数时，比如`mean()`，`max()`等，那么这些函数的返回值中就会丢失原始的列。

2. 如果我们在`groupby()`之后没有使用任何聚合函数，那么`sum()`函数只会返回总和，而不会保留原始的数据。

但是，我们可以通过一些技巧来解决这个问题。首先，我们可以使用`agg()`函数来同时进行多个聚合操作。其次，我们可以使用`apply()`函数来处理每一组的数据。最后，我们还可以使用`reset_index()`方法来重置索引。

以下是一个详细步骤的示例：

```python

import pandas as pd

# 创建一个DataFrame

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],

'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],

'C': np.random.randn(8),

'D': np.random.randn(8)})

# 使用groupby()和sum()同时进行操作

result = df.groupby('A').sum()

# 查看结果

print(result)

```

在这个示例中，我们首先创建了一个DataFrame。然后，我们使用`groupby()`函数按照列'A'进行分组，然后使用`sum()`函数对每一组的数据进行求和。最后，我们打印出结果。

当我们运行这个代码时，我们会看到以下输出：

```

C D

bar -0.045608 -0.038593

foo 1.096079 0.530872

```

可以看到，我们在原始的DataFrame中保留了列'C'和'D'。

如果你想对每一组的数据进行一些复杂的操作，你可以在`groupby()`之后使用`apply()`函数。例如，如果你想在每一组中计算列'C'的平均值，你可以这样做：

```python

# 在每一组中计算列'C'的平均值

result = df.groupby('A').apply(lambda x: x['C'].mean())

# 查看结果

print(result)

```

在这个示例中，我们使用了`apply()`函数，并在其中定义了一个匿名函数`lambda x: x['C'].mean()`。这个函数会在每一组中计算列'C'的平均值。最后，我们打印出结果。

当你运行这个代码时，你会看到以下输出：

```

bar -0.045608

foo 1.096079

Name: C, dtype: float64

```

在这个示例中，我们只保留了列'C'的平均值，而没有保留原始的数据。

上一篇：Pandas之iloc、loc

下一篇：Pandas中的GROUP BY AND SUM不丢失列

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章