在Spark DataFrame中添加一个空列。

12 浏览
0 Comments

在Spark DataFrame中添加一个空列。

如许多网页中提到的,向现有DataFrame添加新列并不直接。尽管在分布式环境中效率低下,但拼接两个DataFrame使用unionAll仍然是很重要的功能。那么,有没有一种优雅的方法可以向DataFrame添加一个空列以便使用unionAll呢?

我的版本如下:

from pyspark.sql.types import StringType
from pyspark.sql.functions import UserDefinedFunction
to_none = UserDefinedFunction(lambda x: None, StringType())
new_df = old_df.withColumn('new_column', to_none(df_old['any_col_from_old']))

0