Python：如何将带有\unnnn转义字符的字符串转换为Unicode字符串？

Question

31 浏览2023年7月10日

匿名的 2023年7月10日

0 Comments

我正在使用Python，不幸的是，我的代码需要将表示为\\u1234转义的Unicode字符的字符串转换回原始字符串，如下所示：\n这是我从其他代码中获得的代码字符串：\n

\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5

\n我需要将其转换回原始字符串。应该如何做到这一点？

0

3 答案

匿名的 · Answer 1 · 2023-08-02T09:24:46+00:00

问题的原因是传递给代码的字符串s没有在前面加上u''，而是一个变量。这样做会导致代码在语法上无法工作。为了解决这个问题，可以将字符串替换为变量b。以下是解决方法的示例代码：

b = u"\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5"
print b.encode("utf-8")

以上代码将字符串赋值给变量b，并通过encode("utf-8")方法将其转换为UTF-8编码的字节串。然后通过print语句打印出来。这样就可以正确地将包含\unnnn转义的字符串转换为Unicode字符串了。

匿名的 · Answer 2 · 2023-08-30T07:29:47+00:00

问题的出现原因是字符串中包含了Unicode转义字符（\unnnn），需要将其转换为Unicode字符串。解决方法是手动解析字符串中的Unicode值，使用Unicode代码点将其转换为相应的字符。

具体的解决方法是，首先需要将字符串中的Unicode转义字符解析出来，然后使用Unicode代码点将其转换为字符。可以通过以下代码实现：

a = '\\u6b22\\u8fce\\u63d0\\u4ea4\\u5fae\\u535a\\u641c\\u7d22\\u4f7f\\u7528\\u53cd\\u9988\\uff0c\\u8bf7\\u76f4\\u63a5'
result = "".join([chr(int('0x'+a[i+2:i+6], 16)) for i in range(0, len(a), 6)])
print(result)

运行以上代码，输出结果为：

欢迎提交微博搜索使用反馈，请直接

通过以上方法，我们成功将包含Unicode转义字符的字符串转换为了Unicode字符串。

匿名的 · Answer 3 · 2023-07-20T02:21:53+00:00

问题的原因是原始字符串包含了\unnnn转义字符，需要将其转换为Unicode字符串。解决方法是使用decode函数将字符串进行unicode解码。

代码如下：

s = '\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5'
print s.decode('unicode-escape')

运行结果为：

欢迎提交微博搜索使用反馈，请直接

此外，如果需要将Unicode字符串转换为UTF-8编码的字节字符串，可以使用encode函数。

代码如下：

s.decode('unicode-escape').encode('utf8')

运行结果为：

'\xe6\xac\xa2\xe8\xbf\x8e\xe6\x8f\x90\xe4\xba\xa4\xe5\xbe\xae\xe5\x8d\x9a\xe6\x90\x9c\xe7\xb4\xa2\xe4\xbd\xbf\xe7\x94\xa8\xe5\x8f\x8d\xe9\xa6\x88\xef\xbc\x8c\xe8\xaf\xb7\xe7\x9b\xb4\xe6\x8e\xa5'

第二行缺少输出的原因是我在编辑时删除了一个标签，但没有删除另一个标签。