在Spark dataframe列中获取最大值的最佳方法

12 浏览2023年4月27日

匿名的 2023年4月27日

0 Comments

我正在尝试找出在Spark dataframe列中获取最大值的最佳方法。考虑以下示例：

df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"])
df.show()

它创建了如下表格：

+---+---+
|  A|  B|
+---+---+
|1.0|4.0|
|2.0|5.0|
|3.0|6.0|
+---+---+

我的目标是找到列A中的最大值（根据观察，为3.0）。使用PySpark，我有以下四种方法：

# 方法1：使用describe()
float(df.describe("A").filter("summary = 'max'").select("A").first().asDict()['A'])
# 方法2：使用SQL
df.registerTempTable("df_table")
spark.sql("SELECT MAX(A) as maxval FROM df_table").first().asDict()['maxval']
# 方法3：使用groupby()
df.groupby().max('A').first().asDict()['max(A)']
# 方法4：转换为RDD
df.select("A").rdd.max()[0]

以上每种方法都给出了正确的答案，但在没有Spark性能分析工具的情况下，我无法确定哪种方法最好。根据直觉或经验，对于Spark运行时或资源使用，上述方法中哪种最有效，或者是否有比上述方法更直接的方法？

按列分组并使用Pyspark筛选具有最大值的行

查看Spark Dataframe列的内容

查找每行中具有最大值的列名。

PySpark按行函数合成

PySpark - 对dataframe中的一列求和，并将结果返回为整数

在pandas DataFrame中找到最大列值所在的行。

在pyspark dataframe中显示不同的列值

返回整个pandas数据框中的最大值，不基于列或行。

如何确定哪个对象最大 -> python

Spark DataFrame：计算逐行均值（或任何聚合操作）

Pandas获取列中最常见的值

Python Pandas：获取列匹配特定值（最大值）的行的索引

Pandas DataFrame相对于其他条目获取最大值。

DataFrame返回错误的值Pandas

使用pandas找到两个或更多列的最大值。

在Python的pandas中，与最大日期时间对应的值

如何获取列中最频繁值的数量？

Python Pandas：获取具有某一列最大值的整行

按列A删除重复项，保留列B最高值所在的行。

在pandas中找到一列的最大值

在Spark dataframe列中获取最大值的最佳方法

0 答案