UnicodeEncodeError: 'ascii' 编解码器无法对位置 3 2 的字符 u'\u2013' 进行编码：其序数不在 128 的范围内。

Question

25 浏览2023年3月1日

匿名的 2023年3月1日

0 Comments

我正在使用xlrd解析一个XSL文件。大部分事情都进行得很好。我有一个字典，其中键是字符串，值是字符串列表。所有的键和值都是Unicode编码。我可以使用str()方法打印出大部分的键和值。但是对于一些值，它们包含Unicode字符\u2013，会导致上述错误。

我怀疑这是因为这是嵌套的Unicode，而Python解释器无法解码它。那么我该怎么解决这个错误呢？

0

3 答案

匿名的 · Answer 1 · 2023-06-10T21:06:57+00:00

在编程过程中，有时会遇到Unicode编码错误。其中一个常见的错误是“UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 3 2: ordinal not in range(128)”。

这个错误通常是由于在将Unicode字符编码为字符串时使用了错误的编码方式导致的。在这个错误中，错误的编码方式是ASCII编码，该编码方式无法处理范围在128以外的字符。

解决这个问题的方法是使用正确的编码方式来处理Unicode字符。以下是一种解决方法：

首先，使用isinstance(foo,basestring)来检查变量foo是否是Unicode字符串类型。如果不是基本字符串类型，则将其转换为Unicode类型，然后再进行编码。

if isinstance(foo,basestring):
    foo.encode('utf8')
else:
    unicode(foo).encode('utf8')

这段代码首先检查变量foo是否是基本字符串类型。如果是，则直接使用utf8编码将其转换为字符串。如果不是，则将其转换为Unicode类型，然后再使用utf8编码将其转换为字符串。

这种方法可以确保无论变量foo是Unicode类型还是基本字符串类型，都可以正确地将其编码为字符串，避免了Unicode编码错误的发生。

如果想要进一步了解这个问题，请参考这篇文章。

匿名的 · Answer 2 · 2023-08-12T17:12:51+00:00

UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 3 2: ordinal not in range(128)是一个编码错误，它出现的原因是在将Unicode字符串转化为ASCII编码时，遇到了无法处理的非ASCII字符。解决这个问题的方法是使用正确的编码方式进行转码。

在解决这个问题之前，可以尝试使用以下代码获取文本内容：

foo.encode('ascii', 'ignore')

这段代码会忽略非ASCII字符，但是会导致数据丢失。如果你不使用非ASCII字符，那么这种方法可以解决问题。

然而，更加正确的解决方法是使用正确的编码方式进行转码。对于ASCII编码无法处理的非ASCII字符，可以选择使用其他编码方式，如UTF-8。以下是一个示例代码：

foo.encode('utf-8')

使用UTF-8编码可以处理包含非ASCII字符的字符串，并且不会导致数据丢失。

总结起来，UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 3 2: ordinal not in range(128)错误的出现是因为在将Unicode字符串转化为ASCII编码时遇到了无法处理的非ASCII字符。解决这个问题的方法是使用正确的编码方式进行转码，如使用UTF-8编码。

匿名的 · Answer 3 · 2023-06-04T14:19:14+00:00

UnicodeEncodeError: 'ascii'编解码器无法对位置3处的字符u'\u2013'进行编码: 超出范围的编码位置

这个错误的出现是因为在将Unicode字符串转换为8位字符串时，使用了系统默认的编码（在Python 2中为ASCII编码）。ASCII编码只包含Unicode的前127个代码点，也就是\u0000到\u007F。因此，当尝试将\u2013（一个长破折号）转换为ASCII编码时，就会出现上述错误，因为ASCII编码不知道\u2013代表什么。

要解决这个问题，需要指定要使用的编码方式。常见的编码方式有ISO-8859-1（也称为Latin-1，包含前256个代码点）、UTF-8（可使用可变长度编码来编码所有代码点）、CP1252（Windows常用编码）以及各种中文和日文编码。

可以使用以下方式指定编码方式：

u'\u2013'.encode('utf8')

这样就会得到一个包含字符的UTF-8编码的字节序列的str对象：

'\xe2\x80\x93'

然后可以将其打印出来：

>>> print '\xe2\x80\x93'

结果为：

–

这是非常详细的解释，谢谢。我有一个问题：假设是Twitter流，你无法事先知道编码方式，你会如何处理呢？

：我不太相信Twitter不提供编码方式的信息。