在Python中从gzip文件中读取utf-8字符

13 浏览
0 Comments

在Python中从gzip文件中读取utf-8字符

我正在尝试在Python中读取一个解压的文件(.gz),但遇到了一些问题。

我使用gzip模块来读取它,但该文件被编码为utf-8文本文件,所以最终会读取到无效字符并导致崩溃。

有人知道如何读取以utf-8编码的gzip文件吗?我知道有一个codecs模块可以帮助,但我不知道如何使用它。

谢谢!

import string
import gzip
import codecs
f = gzip.open('file.gz','r')
engines = {}
line = f.readline()
while line:
    parsed = string.split(line, u'\u0001')
    #做一些操作...
    line = f.readline()
for en in engines:
  print(en)

0