从Spark DataFrame中获取n行,并传递给toPandas()函数。

9 浏览
0 Comments

从Spark DataFrame中获取n行,并传递给toPandas()函数。

我有这段代码:

l = [('Alice', 1),('Jim',2),('Sandra',3)]
df = sqlContext.createDataFrame(l, ['name', 'age'])
df.withColumn('age2', df.age + 2).toPandas()

它运行得很好,完成了它需要做的事情。不过假设我只想显示前n行,然后调用toPandas()返回一个pandas dataframe。我该怎么做呢?我不能调用take(n),因为它不返回一个dataframe,所以我不能将其传递给toPandas()

所以换一种说法,我如何从一个dataframe中获取前n行,并在结果dataframe上调用toPandas()?我觉得这不难,但我想不出来。

我正在使用Spark 1.6.0版本。

0