使用用户定义的函数进行分组的 Pandas

50 浏览2023年1月7日

匿名的 2023年1月7日

0 Comments

我理解将函数作为分组键传递时，该函数会按照每个索引值调用一次，并将返回值用作分组名称。但我无法弄清楚如何在列值上调用该函数。

所以我可以这样做：

people = pd.DataFrame(np.random.randn(5, 5), 
                      columns=['a', 'b', 'c', 'd', 'e'],
                      index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
def GroupFunc(x):
    if len(x) > 3:
        return 'Group1'
    else:
        return 'Group2'
people.groupby(GroupFunc).sum()

这将数据分成两组，其中一组的索引值长度小于等于3，另一组的索引值长度大于3。但是如何传递其中一列的值呢？例如，如果每个索引点的列d的值大于1。我意识到我可以简单地这样做：

people.groupby(people.a > 1).sum()

但我想知道如何在用户定义的函数中做到这一点，以供将来参考。

类似于这样：

def GroupColFunc(x):
if x > 1:
    return 'Group1'
else:
    return 'Group2'

但是我该如何调用它呢？

我尝试了：

people.groupby(GroupColFunc(people.a))

和类似的变体，但这不起作用。

我如何将列值传递给函数？

如果要根据people.a > people.b这样的条件进行分组，我该如何传递多个列值？

在pandas中为不同的groupby对象实现不同的函数。

如何在pandas中使用分组时对列应用“first”和“last”函数？

如何在多个列上使用groupby transform

将多个函数应用于多个分组列

在Pandas的聚合函数中如何为返回的列命名？

Pandas高效地将应用groupby函数到每一列

pandas中与dplyr的多函数summarize/aggregate相当的是什么？

Pandas：在DataFrame中创建聚合列

使用Pandas的groupby() + apply()方法并带有参数。

应用具有多个参数的函数来创建一个新的pandas列。

Pandas: 如何将函数应用于不同的列

如何在Pandas中使用聚合函数“合并”具有相同值的列的行？

pandas按NaN（缺失）值分组的列

pandas数据框中groupby和pivot_table的区别

将函数应用于pandas的groupby操作。

如何在pandas中使用多列映射函数？

在pandas中，将'count'列添加到groupby的结果中如何实现？

如何提高这个pandas数据转换的效率？

Pandas根据函数筛选数据帧行

使用pandas GroupBy.agg()对同一列进行多次聚合

使用用户定义的函数进行分组的 Pandas

0 答案