如何在列表中剥离Unicode

Question

11 浏览2023年1月1日

匿名的 2023年1月2日

0 Comments

我想从列表中剥离Unicode字符串，例如机场[u'KATL'，u'KCID']，期望的输出是[KATL，KCID]。我遵循了以下链接：Strip all the elements of a string list，尝试了其中的一个解决方案：

my_list = ['this\n', 'is\n', 'a\n', 'list\n', 'of\n', 'words\n']

map(str.strip, my_list)

['this', 'is', 'a', 'list', 'of', 'words']

但是出现了以下错误：TypeError: 描述符'strip'需要一个'str'对象，但接收到一个'unicode'对象。

0

3 答案

匿名的 · Answer 1 · 2023-01-28T13:49:29+00:00

文章标题：如何在列表中去除Unicode编码

Python 2中的Unicode字符串与Python 3中的Unicode字符串不同，因此需要根据具体情况选择相应的处理方法。建议使用Python 3，因为它将Unicode字符串视为一等公民，并将所有字符串都称为str。然而，如果必须在Python 2中进行处理，可以使用unicode.strip函数来去除Unicode字符串的空格（如果字符串是真正的Unicode字符串）。

首先，将Unicode字符串转换为字符串类型。如果Unicode字符串仅限于ASCII子集，可以使用str函数进行转换。但要注意，对于非ASCII字符串，这种转换会失败。要将Unicode字符编码为字节字符串，需要选择适当的编码算法（通常为UTF-8），并在字符串上使用.encode()方法。

然而，根据提供的内容，仍然无法将Unicode字符串转换为字符串类型，即使尝试使用map(unicode.strip, airports)也无法成功。没有显示任何错误消息，只是发现列表中的元素仍然保持不变。

实际上，想要将Unicode字符串转换为字符串类型，可以尝试使用答案中的第二个示例，即map(str, lst)。这样就能够成功地将Unicode字符串转换为字符串类型。

匿名的 · Answer 2 · 2023-01-14T20:52:03+00:00

问题：如何从一个列表中去除Unicode字符？

原因：出现这个问题可能是因为在处理文本数据时，列表中的字符串可能包含了Unicode字符，需要将它们去除以方便后续处理。

解决方法：可以使用列表推导式或者map函数来处理。

1. 使用列表推导式：

[s.strip() for s in my_list]

这种方法会遍历列表中的每个字符串元素，并对每个元素调用strip()方法去除首尾的空格。

2. 使用map函数和lambda表达式：

map(lambda s: s.strip(), my_list)

这种方法使用了map函数和lambda表达式，其中lambda表达式定义了一个匿名函数，对列表中的每个字符串元素调用strip()方法去除首尾的空格。

以上两种方法都可以实现从列表中去除Unicode字符的目的。选择哪种方法可以根据个人喜好和实际情况进行选择。

匿名的 · Answer 3 · 2023-06-18T02:21:55+00:00

如何在列表中去除Unicode的问题出现的原因是，有时我们需要处理包含非ASCII字符的Unicode字符串，并将它们转换为字节字符串。然而，将Unicode字符串直接转换为字节字符串是不可靠的。为了解决这个问题，我们可以使用Python中的encode()方法将Unicode字符串编码为可接受的编码格式（如ASCII、Latin1和UTF8）。

UTF8是一种能够编码任何Unicode字符的编码格式，但是在字符串中会出现非ASCII字符，导致字节大小不再等于字符数（Unicode字符数）。Latin1能够以每个字符1个字节的关系表示大多数西欧语言字符，而ASCII则是一组始终正确表示的字符。

如果你想处理包含无法表示在所选择字符集中的字符的字符串，可以使用参数errors='ignore'来删除这些字符，或者使用errors='replace'将其替换为替代字符，通常是问号。

因此，如果我正确理解你的要求，你可以将Unicode字符串列表转换为字节字符串列表的方法如下：

[ x.encode('ascii', errors='replace') for x in my_list ]

以上就是解决如何在列表中去除Unicode的问题的原因和解决方法。通过使用encode()方法并选择合适的编码格式和错误处理方式，我们可以将Unicode字符串转换为字节字符串，以便更方便地处理和操作。