字节在一个Unicode的Python字符串中

21 浏览2023年6月2日

匿名的 2023年6月2日

0 Comments

在Python 2中，Unicode字符串可以同时包含Unicode和字节：

a = u'\u0420\u0443\u0441\u0441\u043a\u0438\u0439 \xd0\xb5\xd0\xba'

我知道这绝对不是一个人应该写的代码，但这是一个我必须处理的字符串。

上面字符串中的字节是UTF-8编码的ек（Unicode \u0435\u043a）。

我的目标是获得一个包含所有Unicode字符的Unicode字符串，也就是说Русский ек（\u0420\u0443\u0441\u0441\u043a\u0438\u0439 \u0435\u043a）。

将其编码为UTF-8得到：

>>> a.encode('utf-8')
'\xd0\xa0\xd1\x83\xd1\x81\xd1\x81\xd0\xba\xd0\xb8\xd0\xb9 \xc3\x90\xc2\xb5\xc3\x90\xc2\xba'

然后从UTF-8解码得到包含字节的初始字符串，这是不好的：

>>> a.encode('utf-8').decode('utf-8')
u'\u0420\u0443\u0441\u0441\u043a\u0438\u0439 \xd0\xb5\xd0\xba'

我找到了一个解决问题的方法，不过有点hacky：

>>> repr(a)
"u'\\u0420\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \\xd0\\xb5\\xd0\\xba'"
>>> eval(repr(a)[1:])
'\\u0420\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \xd0\xb5\xd0\xba'
>>> s = eval(repr(a)[1:]).decode('utf8')
>>> s
u'\\u0420\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \u0435\u043a'
# 几乎完成了，字节正确了，但之前的真正Unicode字符现在用\u转义了；需要去除转义。
>>> import re
>>> re.sub(u'\\\\u([a-f\\d]+)', lambda x : unichr(int(x.group(1), 16)), s)
u'\u0420\u0443\u0441\u0441\u043a\u0438\u0439 \u0435\u043a' # 成功！

这个方法可以正常工作，但由于使用了eval、repr和额外的正则表达式处理Unicode字符串的表示形式，看起来非常hacky。有没有更简洁的方法？

将Unicode Cyrillic符号转换为Python中的字符串

指定一个字符串为Unicode到Python，并且不转义斜杠。

转换字节字符串为Unicode字符串

Python 3.6，utf-8到unicode的转换，带有双斜杠的字符串

将一个以UTF-8编码的字符串转换为真实的Unicode字符串。

Python字符串转换为Unicode

将ASCII转换为Unicode编码问题

Python：如何将带有\unnnn转义字符的字符串转换为Unicode字符串？

如何在Python中将ASCII字符串视为Unicode并取消转义其中的转义字符？

Python中的`bytes(some_string, 'UTF-8')`和`str(some_string, 'UTF-8')`。

在Python中转换类似于\\uXXXX的字符串

Python str vs unicode types Python中的str与unicode类型

在Python 3中如何执行.decode('string-escape')操作？

如何使用Python将字节字符串转换为字符串

Python问题在UTF-8编码和解码方面的编码和解码

在Python2.7中从字符串中移除类似于Unicode \u2026的字符。

Python: 从网络上抓取的Unicode解码

Python将Unicode字符串在数组中以字符形式打印，而不是以码位形式打印。

在Python 3和2中可以使用的Unicode字面量

Python 3 - 编码/解码 vs 字节/字符串

字节在一个Unicode的Python字符串中

0 答案