我需要存储一个可能是任何语言的网站内容,并且能够搜索包含Unicode字符串的内容。我尝试了以下代码:
import urllib2 req = urllib2.urlopen('http://lenta.ru') content = req.read()
这个content是一个字节流,所以我可以在其中搜索Unicode字符串。我需要一种方法,当我执行`urlopen`然后读取时,使用头部的字符集来解码内容并将其编码为UTF-8。
用户名或电子邮箱地址
密码