>백엔드 개발 >파이썬 튜토리얼 >Pandas 시리즈 내에서 여러 하위 문자열을 효율적으로 확인하려면 어떻게 해야 합니까?

Pandas 시리즈 내에서 여러 하위 문자열을 효율적으로 확인하려면 어떻게 해야 합니까?

Patricia Arquette
Patricia Arquette원래의
2024-12-14 15:04:11704검색

How Can I Efficiently Check for Multiple Substrings Within a Pandas Series?

Pandas DataFrame을 사용하여 문자열의 하위 문자열 존재 테스트

Python의 Pandas 라이브러리에서 문자열 데이터로 작업할 때 다음 사항을 확인해야 할 수도 있습니다. 문자열에는 주어진 목록의 하위 문자열이 포함됩니다. df.isin() 및 df[col].str.contains()와 같이 하위 문자열 존재 여부를 확인하는 다양한 함수가 있지만 이들을 조합하여 사용하는 것은 다소 복잡할 수 있습니다.

Pandas가 있다고 가정해 보겠습니다. "cat", "hat", "dog", "fog" 및 "pet"과 같은 문자열을 포함하는 시리즈 s이며 "og" 또는 "pet"을 포함하는 모든 문자열을 식별하려고 합니다. "at."

한 가지 해결책은 "|"를 사용하여 목록의 모든 하위 문자열과 일치하는 정규식 패턴을 사용하는 것입니다. 성격. 예를 들어, "|"를 사용하여 searchfor의 하위 문자열을 결합하면 정규 표현식이 생성됩니다.

>>> searchfor = ['og', 'at']
>>> regex_pattern = '|'.join(searchfor)
>>> s[s.str.contains(regex_pattern)]
0    cat
1    hat
2    dog
3    fog
dtype: object

이 접근 방식은 s에서 "og" 또는 "at"를 포함하는 모든 문자열을 효과적으로 찾습니다. 이는 간결하고 효율적인 방법입니다.

그러나 searchfor의 하위 문자열에 "$" 또는 "^"와 같은 특수 문자가 포함된 경우 리터럴 일치를 보장하기 위해 re.escape()를 사용하여 해당 문자를 이스케이프 처리하는 것이 중요합니다. 예:

>>> import re
>>> matches = ['$money', 'x^y']
>>> safe_matches = [re.escape(m) for m in matches]
>>> regex_pattern = '|'.join(safe_matches)
>>> s[s.str.contains(regex_pattern)]
0    cat
1    hat
2    dog
3    fog
dtype: object

특수 문자를 이스케이프 처리하여 str.contains와 함께 사용할 때 각 문자가 문자 그대로 일치하는지 확인합니다. 이 접근 방식은 Pandas Series의 하위 문자열 감지를 위한 강력한 솔루션을 제공합니다.

위 내용은 Pandas 시리즈 내에서 여러 하위 문자열을 효율적으로 확인하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.