Spark向DataFrame添加新列，该列的值来自前一行。

12 浏览2023年3月25日

匿名的 2023年3月25日

0 Comments

我想知道如何在Spark（Pyspark）中实现以下内容

初始Dataframe：

+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+

结果Dataframe：

+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0|  7.0  |
+--+---+-------+
|3 |7.0|  3.0  |
+--+---+-------+
|2 |3.0|  5.0  |
+--+---+-------+

我通常使用以下方式“追加”新列到Dataframe：

df.withColumn("new_Col", df.num * 10)

但是我不知道如何实现新列的“行移动”，使得新列的值为前一行的字段值（如示例所示）。我在API文档中也找不到如何通过索引访问DF中的特定行的任何信息。

感激不尽，希望能得到帮助。

在Spark中，从其他列派生出一个新的数据帧列。

在pyspark Dataframe中添加新行

在PySpark数据帧中添加列总和作为新列

使用Spark将列转置为行

PySpark - 对dataframe中的一列求和，并将结果返回为整数

如何在Spark DataFrame中添加一个常量列？

Spark withColumn用于修改列，但不能添加新列。

在pandas数据框中将列向上移动一位？

在Pyspark数据框中将String列转为透视表

PySpark将列中的null替换为其他列中的值

Pyspark：将多个数组列拆分为行

Pyspark 根据账户创建批次号列。

按日期计算最新id的金额总和 PySpark

更新Spark中的数据帧列

在Pandas DataFrame中添加新列 Python

添加新列，其值为后续列的和。

如何在Pandas DataFrame中移动列

在Pandas中，对多个行值进行求和的操作涉及多个列。

在同一列中，将单元格的值与下方的单元格值进行比较？

在Spark DataFrame中添加一个空列。

Spark向DataFrame添加新列，该列的值来自前一行。

0 答案