Python/pyspark数据框重新排列列。

11 浏览
0 Comments

Python/pyspark数据框重新排列列。

我在Python/PySpark中有一个数据框,其中包含列id time city zip等等......

现在我给这个数据框添加了一个新列name

现在我必须按照一种方式排列列,使得name列在id之后。

我已经像下面这样做了:

change_cols = ['id', 'name']
cols = ([col for col in change_cols if col in df] 
        + [col for col in df if col not in change_cols])
df = df[cols]

我得到了这个错误

pyspark.sql.utils.AnalysisException: u"Reference 'id' is ambiguous, could be: id#609, id#1224.;"

为什么会出现这个错误?我该如何纠正它。

0