我正在进行一些网络爬虫工作,网站经常使用HTML实体来表示非ASCII字符。Python是否有一个工具,可以将带有HTML实体的字符串转换为Unicode类型?
例如:
我得到的结果是:
ǎ
它代表了带有音调标记的"ǎ"。在二进制中,这被表示为16位的01ce。我想将HTML实体转换为值u'\u01ce'。
u'\u01ce'
用户名或邮箱地址
密码