Pandas를 사용한 빠른 구두점 제거
구두점 제거는 일반적인 텍스트 정리 작업입니다. pandas str.replace는 널리 사용되는 방법이지만 대규모 데이터세트에서는 성능이 충분하지 않을 수 있습니다.
str.replace의 대안:
벤치마크:
고려 사항:
코드:
import pandas as pd import re # Regex.sub df['text'] = [re.compile(r'[^\w\s]+').sub('', x) for x in df['text'].tolist()] # str.translate punct = '!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~' transtab = str.maketrans(dict.fromkeys(punct, '')) df['text'] = '|'.join(df['text'].tolist()).translate(transtab).split('|')
위 내용은 Pandas DataFrame에서 구두점을 제거하는 가장 빠른 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!