Apache Spark UI显示正在摄取的文件的输入大小不正确。

Question

8 浏览2023年1月26日

匿名的 2023年1月26日

0 Comments

我的Java spark程序将一个3.7GB的文件导入。\n当我启动spark程序并访问localhost:4040端口上的Spark UI时，\n加载阶段显示的输入大小为7.3GB？？？这真的很令人困惑。为什么Spark UI控制台中显示的输入大小几乎是实际导入的文件大小的两倍？

0

匿名的 · Answer 1 · 2023-04-22T12:14:00+00:00

Apache Spark UI显示的文件输入大小不正确的原因可能是因为：

- 输入大小是估计的，不是加载的文件的实际大小。加载的对象需要更多的内存来存储，因为它们通常比序列化对象占用更多的空间（指向实际对象的指针，用于加载数据的数据结构的开销）。

- Apache Spark是一个分布式系统，可能需要多次读取相同的数据块，这可能导致输入大小与文件大小不同。

解决这个问题的方法可能是：

- 查看Apache Spark的源代码，了解具体是如何计算输入大小的。

- 向Apache Spark的开发团队咨询，以获取关于输入大小计算的更多信息。

需要注意的是，这只是对问题原因和解决方法的推测，具体情况可能需要进一步调查和确认。