`toPandas`是Spark DataFrame的方法,它的作用是将DataFrame转换为Pandas DataFrame。
- 论坛
- `toPandas`是Spark DataFrame的方法,它的作用是将DataFrame转换为Pandas DataFrame。
11 浏览
`toPandas`是Spark DataFrame的方法,它的作用是将DataFrame转换为Pandas DataFrame。
我是Spark-DataFrame API的初学者。
我使用以下代码将csv制表符分隔的文件加载到Spark Dataframe中:
lines = sc.textFile('tail5.csv') parts = lines.map(lambda l : l.strip().split('\t')) fnames = *一些名称列表* schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames]) ddf = sqlContext.createDataFrame(parts,schemaData)
假设我使用Spark从新文件创建了DataFrame,并使用内置方法toPandas()将其转换为pandas对象,
- 它会将Pandas对象存储到本地内存中吗?
- 所有Pandas的低级计算是否由Spark处理?
- 它是否提供了所有pandas dataframe的功能?(我猜是的)
- 我能否将其转换为Pandas并完成,而不需要太多涉及DataFrame API?