防止Python libxml2转换

15 浏览
0 Comments

防止Python libxml2转换

在使用libxml2在Python中通过htmlParseDoc解析HTML时,它会发生转换。例如,

原始HTML:

Order Number & OrderID & Was Approved

变成:

Order Number & OrderID & Was Approved

其他非可见控制字符也会被转换,因此用原始字符替换"&"不能使前后字符串相等。(我通过以十六进制格式转储字符串进行了检查。)

有人知道如何阻止发生转换或者创建一个转换以恢复原始内容吗?

提前感谢。

0