Apache Spark UI显示正在摄取的文件的输入大小不正确。

8 浏览
0 Comments

Apache Spark UI显示正在摄取的文件的输入大小不正确。

我的Java spark程序将一个3.7GB的文件导入。\n当我启动spark程序并访问localhost:4040端口上的Spark UI时,\n加载阶段显示的输入大小为7.3GB???这真的很令人困惑。为什么Spark UI控制台中显示的输入大小几乎是实际导入的文件大小的两倍?

0
0 Comments

Apache Spark UI显示的文件输入大小不正确的原因可能是因为:

- 输入大小是估计的,不是加载的文件的实际大小。加载的对象需要更多的内存来存储,因为它们通常比序列化对象占用更多的空间(指向实际对象的指针,用于加载数据的数据结构的开销)。

- Apache Spark是一个分布式系统,可能需要多次读取相同的数据块,这可能导致输入大小与文件大小不同。

解决这个问题的方法可能是:

- 查看Apache Spark的源代码,了解具体是如何计算输入大小的。

- 向Apache Spark的开发团队咨询,以获取关于输入大小计算的更多信息。

需要注意的是,这只是对问题原因和解决方法的推测,具体情况可能需要进一步调查和确认。

0