防止Python libxml2转换
在使用libxml2在Python中通过htmlParseDoc解析HTML时,它会发生转换。例如,
原始HTML:
Order Number & OrderID & Was Approved
变成:
Order Number & OrderID & Was Approved
其他非可见控制字符也会被转换,因此用原始字符替换"&"
不能使前后字符串相等。(我通过以十六进制格式转储字符串进行了检查。)
有人知道如何阻止发生转换或者创建一个转换以恢复原始内容吗?
提前感谢。