urllib2读取为Unicode

8 浏览
0 Comments

urllib2读取为Unicode

我需要存储一个可能是任何语言的网站内容,并且能够搜索包含Unicode字符串的内容。我尝试了以下代码:

import urllib2
req = urllib2.urlopen('http://lenta.ru')
content = req.read()

这个content是一个字节流,所以我可以在其中搜索Unicode字符串。我需要一种方法,当我执行`urlopen`然后读取时,使用头部的字符集来解码内容并将其编码为UTF-8。

0