如何在pyspark中进行groupBy后计算唯一ID

7 浏览
0 Comments

如何在pyspark中进行groupBy后计算唯一ID

我正在使用以下代码按年份聚合学生。目的是了解每年的学生总数。

from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped = 
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))

我发现问题是有许多ID重复,所以结果是错误的和巨大的。

我想按年份聚合学生,统计每年的学生总数,并避免ID的重复。

0