urllib2读取为Unicode

8 浏览2023年4月26日

匿名的 2023年4月26日

0 Comments

我需要存储一个可能是任何语言的网站内容，并且能够搜索包含Unicode字符串的内容。我尝试了以下代码：

import urllib2
req = urllib2.urlopen('http://lenta.ru')
content = req.read()

这个content是一个字节流，所以我可以在其中搜索Unicode字符串。我需要一种方法，当我执行`urlopen`然后读取时，使用头部的字符集来解码内容并将其编码为UTF-8。

urllib.request.urlopen返回的是字节(bytes)，但我无法解码它。

Python - 无法解码HTML（urllib）

如何使用urlopen获取非ASCII的URL？

python requests.get()返回的文本编码不正确，而不是UTF-8？

编码URL结果的外语 python 2.7

如何使用BeautifulSoup正确解析UTF-8编码的HTML为Unicode字符串？

如何使用Python读取URL的内容？

Python 2 vs. Python 3 - urllib formats

在Python中对UTF-8进行Url解码

为什么我在使用urllib2打开url时出现乱码字符？

无法对html2text使用read()吗？

python: urllib2如何在urlopen请求中发送cookie

'ascii'编解码器无法解码字节0xcb，同时进行bs操作。

如何使Python解释器正确处理字符串操作中的非ASCII字符？

如何打开包含Unicode字符的html文件？

Python: 从urllib2.urlopen调用中获取HTTP标头？

如何使用Python下载任何（！）带有正确字符集的网页？

Python Requests and Unicode

使用lxml解析HTML文档时出现编码问题。