如何在pyspark中进行groupBy后计算唯一ID

7 浏览2023年3月23日

匿名的 2023年3月24日

0 Comments

我正在使用以下代码按年份聚合学生。目的是了解每年的学生总数。

from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped = 
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))

我发现问题是有许多ID重复，所以结果是错误的和巨大的。

我想按年份聚合学生，统计每年的学生总数，并避免ID的重复。

在Spark中使用groupBy的聚合函数Count使用

在对日期进行分组后，使用pandas数据框获取组中元素的数量。

使用Pandas计算每个分组的唯一值数量

计算每个ID的唯一名称数量，并将结果写入新的pandas列中。

基于两个列分组的唯一值计数 - Pandas

DataFrame函数groupBy应该避免使用吗？

Pandas DataFrame按两列分组并计算计数

如何按另一列的值聚合pandas中的groupBy

在pandas中对数据框进行按值计数的分组

如何在Pandas数据框上进行分组(groupby)后进行条件计数的操作？

计算另一列中每个不同值的一个列中的不同值的数量。

pandas在尝试计算唯一值时出现错误。

Pandas通过groupby创建新列并计算数量。

Pandas - 每列的唯一值计数

PySpark - 对dataframe中的一列求和，并将结果返回为整数

Python pandas：在我的数据框中添加一列，用于计数一个变量。

df.unique()根据某一列对整个DataFrame进行去重操作。

我如何使用 Pandas groupby 进行求和？

如何获取pandas中groupby对象中的组数？

如何在Pandas中对Dataframe进行GroupBy并保留列

如何在pyspark中进行groupBy后计算唯一ID

0 答案