使用 Pandas 快速去除标点符号
标点符号去除是一项常见的文本清理任务。虽然 pandas str.replace 是一种广泛使用的方法,但对于大型数据集来说,它的性能可能不够。
str.replace 的替代方案:
基准测试:
注意事项:
代码:
import pandas as pd import re # Regex.sub df['text'] = [re.compile(r'[^\w\s]+').sub('', x) for x in df['text'].tolist()] # str.translate punct = '!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~' transtab = str.maketrans(dict.fromkeys(punct, '')) df['text'] = '|'.join(df['text'].tolist()).translate(transtab).split('|')
以上是从 Pandas DataFrame 中删除标点符号的最快方法是什么?的详细内容。更多信息请关注PHP中文网其他相关文章!