防止Python libxml2转换

15 浏览2023年7月24日

匿名的 2023年7月25日

0 Comments

在使用libxml2在Python中通过htmlParseDoc解析HTML时，它会发生转换。例如，

原始HTML：

Order Number & OrderID & Was Approved

变成：

Order Number & OrderID & Was Approved

其他非可见控制字符也会被转换，因此用原始字符替换"&"不能使前后字符串相等。（我通过以十六进制格式转储字符串进行了检查。）

有人知道如何阻止发生转换或者创建一个转换以恢复原始内容吗？

提前感谢。

在 XML 中使用转义字符串

ElementTree可以被告知保持属性的顺序吗？

使用Python lxml将xml转换为json

C/C++，libxml2：解析HTML片段

使用lxml解析HTML文档时出现编码问题。

在保存 DOM 文档时移除 doctype。

Faithfully Preserve Comments in Parsed XML（忠实地保留解析XML中的注释）

python behave生成的XML是"不是规范的"。

最快的将XML转换为Python对象的方法

如何在lxml中删除一个元素

将XML字符串转换为Python对象

解析包含无效字符的大型 XML 文件

如何将作为字符串接收的 XML 进行美化？

需要在XML字符串中删除非法字符

如何在Python中使用XSLT转换XML文件？

在Python字符串中解码HTML实体？

在解析一个大型XML文件时，当遇到Python的lxml库中的XMLSyntaxError错误时，我应该如何处理？

解析包含并使用Python的HTML页面

XElement.Parse由于无效的xml文本而中断。

在使用Python ElementTree和minidom美化打印XML时禁用转义。