在Python中将XML/HTML实体转换为Unicode字符串

26 浏览
0 Comments

在Python中将XML/HTML实体转换为Unicode字符串

我正在进行一些网络爬虫工作,网站经常使用HTML实体来表示非ASCII字符。Python是否有一个工具,可以将带有HTML实体的字符串转换为Unicode类型?

例如:

我得到的结果是:

ǎ

它代表了带有音调标记的"ǎ"。在二进制中,这被表示为16位的01ce。我想将HTML实体转换为值u'\u01ce'

0