将字符串分割为单词和标点符号。

14 浏览
0 Comments

将字符串分割为单词和标点符号。

我试图将一个字符串分割成单词和标点符号,并将标点符号添加到分割产生的列表中。

例如:

>>> c = "help, me"

>>> print c.split()

['help,', 'me']

我真正希望列表看起来像这样:

['help', ',', 'me']

所以,我希望在空格处将字符串分割,并将标点符号与单词分开。

我尝试先解析字符串,然后再运行分割:

>>> for character in c:

... if character in ".,;!?":

... outputCharacter = " %s" % character

... else:

... outputCharacter = character

... separatedPunctuation += outputCharacter

>>> print separatedPunctuation

help , me

>>> print separatedPunctuation.split()

['help', ',', 'me']

这样可以得到我想要的结果,但在大文件上速度非常慢。

有没有更高效的方法来做到这一点?

0