将不同的编码转换为ASCII

Question

12 浏览2023年2月2日

匿名的 2023年2月2日

0 Comments

我有一百个文件，根据chardet的结果，每个文件都使用以下之一的编码:

['UTF-8', 'ascii', 'ISO-8859-2', 'UTF-16LE', 'TIS-620', 'utf-8', 'SHIFT_JIS', 'ISO-8859-7']

所以我知道文件的编码，因此我知道应该使用什么编码打开文件。

我希望将所有文件转换为仅包含ascii字符。我还希望将不同版本的字符如-和'转换为它们的纯ascii等效字符。例如，b"\xe2\x80\x94".decode("utf8")应该转换为-。最重要的是文本易于阅读。例如，我不想要don t，而是想要don't。

我应该如何做到这一点？

我可以使用Python 2或3来解决这个问题。

以下是我在Python 2中的代码进展。我试图检测那些起始字符为非ascii字符的行。

for file_name in os.listdir('.'):
        print(file_name)
        r = chardet.detect(open(file_name).read())
        charenc = r['encoding']
        with open(file_name,"r" ) as f:
            for line in f.readlines():
              if line.decode(charenc) != line.decode("ascii","ignore"):
                print(line.decode("ascii","ignore"))

这给我带来了以下异常:

    if line.decode(charenc) != line.decode("ascii","ignore"):
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_16_le.py", line 16, in decode
    return codecs.utf_16_le_decode(input, errors, True)
UnicodeDecodeError: 'utf16' codec can't decode byte 0x0a in position 6: truncated data

0

1 答案

匿名的 · Answer 1 · 2023-02-13T18:14:51+00:00

在处理二进制文件时，不要使用.readlines()方法。在UTF-16小端编码中，换行符被编码为两个字节，分别是0A（ASCII中的换行符）和00（空字符）。.readlines()方法会根据这两个字节之间的第一个字节进行分割，导致解码时数据不完整。

为了便于解码，可以使用io库重新打开文件：

import io
for file_name in os.listdir('.'):
    print(file_name)
    r = chardet.detect(open(file_name).read())
    charenc = r['encoding']
    with io.open(file_name, "r", encoding=charenc) as f:
        for line in f:
            line = line.encode("ascii", "ignore"):
            print line

如果想要用ASCII友好的字符替换特定的Unicode码点，可以使用一个将码点映射到码点或Unicode字符串的字典，并首先调用line.translate()方法：

charmap = {
    0x2014: u'-',   # em dash
    0x201D: u'"',   # comma quotation mark, double
    # etc.
}
line = line.translate(charmap)

在这里，我使用十六进制整数字面量来定义要映射的Unicode码点。字典中的值可以是Unicode字符串、整数（码点）或None（表示完全删除该码点）。

当我在带有"ignore"的行上使用"encode()"时，会出现UnicodeEncodeError: 'ascii' codec can't encode character u'\ufeff' in position 0: ordinal not in range(128)的错误。charenc = "UTF-8"。

抱歉，这是我的错误；应该是使用encode()，而不是decode()。

如果文件非常大（例如75GB），使用open(file_name).read()可能会有问题。可以使用open(file_name).readline()来解决。