使用pandas快速删除标点符号
- 论坛
- 使用pandas快速删除标点符号
16 浏览
使用pandas快速删除标点符号
这是一个自问自答的帖子。下面我将概述自然语言处理领域中的一个常见问题,并提出一些高效的解决方法。
在文本清理和预处理过程中,常常需要去除标点符号。标点符号被定义为string.punctuation
中的任何字符:
>>> import string string.punctuation '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
这是一个非常常见的问题,并且已经被反复问过。最符合习惯的解决方案是使用pandas的str.replace
。然而,在涉及大量文本的情况下,可能需要考虑更高效的解决方案。
在处理数十万条记录时,有哪些好的高效替代str.replace
的方法?