我应该使用什么样的数据结构来处理大量数据

Question

18 浏览2023年1月16日

匿名的 2023年1月17日

0 Comments

我正在解析大型的xhtml文件，并尝试对其中的内容进行处理。基本上是处理其中的单词及其位置等。我尝试使用HashMap、ArrayList等数据结构，但在加载了130347个数据后都会出现内存不足的问题。有什么类型的数据结构可以在JAVA中用来存储大量数据呢？

0

3 答案

匿名的 · Answer 1 · 2023-05-06T03:20:16+00:00

处理大量数据时，将所有数据都放入一个巨大的数据结构中然后处理是行不通的。可以尝试使用增量的方法，即读取一部分数据，然后处理它，接着读取更多数据，以此类推。这样做的一个方式是使用SAX解析文档，它采用了事件驱动的方法。可以让内容处理器创建并存储从读取的XML元素构建的对象，一旦累积了足够多的对象，就进行处理，然后清空集合。

原文链接：https://www.codenong.com/21268063/

匿名的 · Answer 2 · 2023-01-17T01:24:57+00:00

当处理大量数据时，使用SAX解析器可以减少内存消耗。

SAX解析器是一种用于处理XML文件的解析器。与DOM解析器不同，SAX解析器不会将整个XML文档加载到内存中，而是逐行读取XML文档并触发相应的事件。这种逐行读取的方式使得SAX解析器在处理大型XML文件时占用的内存较少。

对于处理大量数据的情况，使用SAX解析器有以下几个优点：

1. 内存消耗低：SAX解析器逐行读取XML文档，不需要将整个文档加载到内存中，因此可以处理大型XML文件而不会导致内存溢出。

2. 处理速度快：由于不需要加载整个XML文档，SAX解析器可以更快地处理大型XML文件。

3. 简单易用：SAX解析器提供了一组简单的API，使得开发人员可以方便地处理XML文件的各个部分。

以下是使用SAX解析器处理XML文件的示例代码（Java语言）：

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
public class MySAXHandler extends DefaultHandler {
  
  public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
    // 处理元素的开始标签
  }
  
  public void endElement(String uri, String localName, String qName) throws SAXException {
    // 处理元素的结束标签
  }
  
  public void characters(char[] ch, int start, int length) throws SAXException {
    // 处理元素的文本内容
  }
  
  // 其他事件处理方法...
}
public class Main {
  
  public static void main(String[] args) {
    try {
      // 创建SAX解析器
      SAXParserFactory factory = SAXParserFactory.newInstance();
      SAXParser parser = factory.newSAXParser();
      
      // 创建事件处理器
      MySAXHandler handler = new MySAXHandler();
      
      // 解析XML文件
      parser.parse(new File("data.xml"), handler);
    } catch (Exception e) {
      e.printStackTrace();
    }
  }
}

通过使用SAX解析器，我们可以高效地处理大量数据，并减少内存消耗。无论是处理大型XML文件还是其他类型的大数据集，SAX解析器都是一个值得考虑的选择。

匿名的 · Answer 3 · 2023-04-09T13:45:53+00:00

在处理大数据时，选择合适的数据结构非常重要。如果使用不合适的数据结构，可能会导致内存不足或性能问题。因此，我们需要找到合适的数据结构来处理大数据。

这个问题的原因是作者在使用Tomcat服务器和Eclipse运行应用程序时遇到了内存不足的问题。为了解决这个问题，作者询问了关于如何修改虚拟机内存设置的建议。有人建议通过命令行或配置文件来修改虚拟机内存大小。

根据建议，我们可以通过命令行或配置文件来修改虚拟机内存大小。在Tomcat和Eclipse环境中，可以参考提供的链接来设置内存大小。

如果在命令行中运行应用程序，可以使用类似于-Xmx4G的参数来允许应用程序使用4GB的内存。

总之，处理大数据时，选择合适的数据结构非常重要。为了解决内存不足的问题，可以通过修改虚拟机内存设置来增加可用内存。在Tomcat和Eclipse环境中，可以参考提供的链接或使用命令行参数来设置内存大小。