解析包含无效字符的大型 XML 文件

21 浏览2023年1月10日

匿名的 2023年1月11日

0 Comments

我有一个1GB的xml文件，但是它包含一些无效字符，比如'&'。我想要在Python中解析它。为了做到这一点，我使用了如下的element tree：

import xml.etree.cElementTree as cElementTree
def main(): 
   context = cElementTree.iterparse('newscor.xml', events=("start", "end"))
   context = iter(context)
   event, root = context.__next__()
   for event, elem in context:
     if event == "start":
         if elem.tag == 'group': 
            elem.tail = None
            print ( elem.text)
         if elem.tag in ['group']:
            root.clear()                                               
main()

但是在这一行`for event, elem in context`，它给我报了以下错误：

`xml.etree.ElementTree.ParseError: not well-formed (invalid token)`

为了处理这个错误，我尝试使用带有`recover=True`的lxml解析器，如此链接中所描述的。然而，iterparse()在lxml中没有解析器参数。

因此，我还尝试了使用Sax，如此解决方案中所示，但是我不知道在哪里使用escape方法。

我应该使用什么方法来避免无效字符并解析这个大文件？

使用含有非法特殊字符(&)的XML解析

在解析一个大型XML文件时，当遇到Python的lxml库中的XMLSyntaxError错误时，我应该如何处理？

Python因为存在'&'字符而导致出现“非格式良好的XML”错误。

使用Python Iterparse处理大型XML文件

为什么解析XML文件出错了？

Python: Unicode 和 ElementTree.parse

在Python中，解析大型XML文档的最快方法是什么？

解析错误：使用cElementTree时，没有良好格式（无效标记）。

无法在Python中解析带有命名空间的XML。

解析压缩的XML源文件为ElementTree。

非ASCII字符的语法错误

为什么lxml.etree.iterparse()会占用所有的内存？

解析包含并使用Python的HTML页面

使用xmltodict python解析XML文档时出现错误。

使用xml.etree.ElementTree来解析缓冲区，而不是文件。

xml.etree.ElementTree.ParseError: unbound prefix: 如何在不更改XML文件的情况下解决此问题

python behave生成的XML是"不是规范的"。

UnicodeEncodeError: 'ascii' 编解码器无法对位置0处的字符u'\xef'进行编码: 编码值超出范围(128)

XElement.Parse由于无效的xml文本而中断。

在Python中使用ElementTree解析XML的例子

解析包含无效字符的大型 XML 文件

0 答案