`toPandas`是Spark DataFrame的方法,它的作用是将DataFrame转换为Pandas DataFrame。

11 浏览
0 Comments

`toPandas`是Spark DataFrame的方法,它的作用是将DataFrame转换为Pandas DataFrame。

我是Spark-DataFrame API的初学者。

我使用以下代码将csv制表符分隔的文件加载到Spark Dataframe中:

lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *一些名称列表*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)

假设我使用Spark从新文件创建了DataFrame,并使用内置方法toPandas()将其转换为pandas对象,

  • 它会将Pandas对象存储到本地内存中吗?
  • 所有Pandas的低级计算是否由Spark处理?
  • 它是否提供了所有pandas dataframe的功能?(我猜是的)
  • 我能否将其转换为Pandas并完成,而不需要太多涉及DataFrame API?
0