为了一个大数据项目,我计划使用spark,它具有一些很好的功能,比如内存计算用于重复的工作负载。它可以运行在本地文件或者HDFS之上。
然而,在官方文档中,我找不到任何关于如何处理gzipped文件的提示。在实践中,处理.gz文件而不是解压的文件可能更高效。
是否有一种方式可以手动实现读取gzipped文件,或者读取.gz文件时是否已经自动解压?
用户名或电子邮箱地址
密码