>백엔드 개발 >파이썬 튜토리얼 >Pandas 시리즈에서 특정 하위 문자열을 포함하는 문자열을 어떻게 효율적으로 찾을 수 있나요?

Pandas 시리즈에서 특정 하위 문자열을 포함하는 문자열을 어떻게 효율적으로 찾을 수 있나요?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-12-06 11:39:121042검색

How Can I Efficiently Find Strings Containing Specific Substrings in a Pandas Series?

Pandas에서 문자열 하위 문자열 테스트

Pandas에서는 문자열 열에 여러 하위 문자열 중 하나가 포함되어 있는지 확인해야 하는 시나리오가 발생할 수 있습니다. . 이는 isin() 및 str.contains() 함수를 사용하여 달성할 수 있지만 더 효율적인 접근 방식을 사용할 수 있습니다.

하위 문자열 목록을 포함하는 모든 문자열을 찾으려면 정규식 파이프를 활용할 수 있습니다. str.contains() 내의 문자(|)입니다. 예를 들어, 계열 s = ['cat','hat','dog','fog','pet'] 및 원하는 하위 문자열 ['og', 'at']이 주어지면 다음 코드를 실행할 수 있습니다.

import pandas as pd

searchfor = ['og', 'at']
result = s[s.str.contains('|'.join(searchfor))]

이 작업은 pet을 제외하고 searchfor의 하위 문자열과 일치하는 s의 모든 요소로 시리즈를 생성합니다.

다음이 중요합니다. $ 및 ^와 같이 정규식에서 특정 의미를 갖는 특수 문자는 re.escape()를 사용하여 이스케이프해야 합니다. 이렇게 하면 일치하는 동안 문자로 처리됩니다.

위 내용은 Pandas 시리즈에서 특정 하위 문자열을 포함하는 문자열을 어떻게 효율적으로 찾을 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.