在Spark中，从其他列派生出一个新的数据帧列。

18 浏览2023年1月16日

匿名的 2023年1月16日

0 Comments

我正在使用Spark 1.3.0和Python。我有一个数据框，我希望添加一个由其他列派生的额外列。像这样，

>>old_df.columns
[col_1, col_2, ..., col_m]
>>new_df.columns
[col_1, col_2, ..., col_m, col_n]

其中

col_n = col_3 - col_4

我该如何在PySpark中完成这个操作？

如何在Spark DataFrame中添加新列（使用PySpark）？

Spark向DataFrame添加新列，该列的值来自前一行。

在PySpark数据帧中添加列总和作为新列

在pyspark Dataframe中添加新行

在Pandas中根据两个其他列的值创建一个新列。

在Pandas DataFrame中添加新列 Python

Python/pyspark数据框重新排列列。

如何在PySpark中更改数据框列名？

在Spark DataFrame中添加一个空列。

使用PySpark从字典创建新列

使用Spark将列转置为行

查看Spark Dataframe列的内容

更新Spark中的数据帧列

如何向现有的 DataFrame 添加新列？

合并压平索引层次结构。

如何向数据框添加系列？

将pandas cumsum的结果赋值回原始数据框。

如何使用pandas在多个数据框中添加1列？

在数据框中计算唯一记录的数量。

如何从pyspark中的数组中提取一个元素