提升pandas groupby的性能

16 浏览2023年1月8日

匿名的 2023年1月9日

0 Comments

我有一个用Python编写的机器学习应用程序，其中包括一个数据处理步骤。起初，我是在Pandas的DataFrames上进行数据处理，但是由于性能太差，我最终改用纯Python进行重写，使用for循环代替矢量化操作，使用列表和字典代替DataFrames和Series。令我惊讶的是，用纯Python编写的代码性能比使用Pandas编写的代码要高得多。

由于我手写的数据处理代码比原始的Pandas代码要复杂得多，所以我还没有完全放弃使用Pandas，目前我正在尝试优化Pandas代码，但并没有取得太大的成功。

数据处理步骤的核心包括以下内容：首先，我将行分成几个组，因为数据包含几千个时间序列（每个“个体”一个），然后我对每个组进行相同的数据处理：大量的汇总、将不同的列合并成新的列等等。

我使用Jupyter Notebook的lprun对代码进行了性能分析，大部分时间都花在以下类似的行上：

grouped_data = data.groupby('pk')
data[[v + 'Diff' for v in val_cols]] = grouped_data[val_cols].transform(lambda x: x - x.shift(1)).fillna(0)
data[[v + 'Mean' for v in val_cols]] = grouped_data[val_cols].rolling(4).mean().shift(1).reset_index()[val_cols]
(...)

这是一种混合了矢量化和非矢量化处理的方法。我理解非矢量化操作不会比我手写的for循环更快，因为本质上它们就是for循环，但为什么它们会比我手写的代码慢这么多呢？我们谈论的是我的手写代码和Pandas代码之间性能下降了10-20倍。

我是不是做错了什么非常、非常严重的错误？

在使用groupby之后，在Pandas中计算np.diff会导致意外的结果。

pandas groupby dropping columns

使用sum()和mean()的分组

提高Pandas数据框的行追加性能

在数据框的分组内计算差异

pandas中与dplyr的多函数summarize/aggregate相当的是什么？

Pandas高效地将应用groupby函数到每一列

使用pandas识别统计异常值：使用groupby将行缩减到不同的数据框中。

在pandas中为不同的groupby对象实现不同的函数。

在处理包含60,000行数据的数据框、使用groupby和apply函数时，加快pandas的解决方案。

Pandas按类别进行分组，存在冗余的NaN值。

PANDAS：将分组数据中计算得到的数据合并到主要数据框中

pandas中的groupby能否将聚合结果转换为列表，而不是求和、平均值等？

Python Pandas：在组内计算移动平均值

为什么Apache-Spark - Python在本地运行时比pandas慢？

pandas groupby ffill bfill 需要中间的 groupby 吗？

在pandas中，有没有与.groupby相反的“ungroup by”操作？

在Pandas DataFrame中进行迭代

Pandas按多个字段进行分组，然后计算差值。

Python - 对GroupBy对象的滚动函数

提升pandas groupby的性能

0 答案