如何在pyspark中进行groupBy后计算唯一ID
- 论坛
- 如何在pyspark中进行groupBy后计算唯一ID
7 浏览
如何在pyspark中进行groupBy后计算唯一ID
我正在使用以下代码按年份聚合学生。目的是了解每年的学生总数。
from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
我发现问题是有许多ID重复,所以结果是错误的和巨大的。
我想按年份聚合学生,统计每年的学生总数,并避免ID的重复。