>백엔드 개발 >파이썬 튜토리얼 >Pandas 시리즈에 주어진 목록의 하위 문자열이 포함되어 있는지 효율적으로 확인하려면 어떻게 해야 합니까?

Pandas 시리즈에 주어진 목록의 하위 문자열이 포함되어 있는지 효율적으로 확인하려면 어떻게 해야 합니까?

Susan Sarandon
Susan Sarandon원래의
2024-11-30 01:37:10989검색

How Can I Efficiently Check if a Pandas Series Contains Any Substring from a Given List?

Pandas에서 문자열 하위 문자열 포함 테스트

Pandas 시리즈 내의 문자열에 지정된 목록이 포함되어 있는지 확인하는 효율적인 방법 찾기 하위 문자열? 이에 관한 쿼리는 아래에서 볼 수 있습니다.

원래 쿼리:

df.isin()과 df[col]의 기능을 결합한 pandas 함수가 있습니까? .str.contains()? 시리즈에 주어진 목록의 하위 문자열이 포함된 모든 인스턴스를 식별하는 것이 목표입니다.

제안된 솔루션:

포럼에서 제안된 한 가지 접근 방식은 루프 및 목록 이해를 사용했습니다. 계열 내의 각 하위 문자열을 확인합니다. 그러나 더 간결하고 효율적인 솔루션이 있습니다.

정규식 기반 솔루션:

정규식 활용 | 연산자를 사용하면 주어진 목록의 각 하위 문자열과 일치하는 정규식을 구성할 수 있습니다. 그런 다음 이 정규 표현식을 str.contains와 함께 사용하여 계열을 원하는 값으로 필터링할 수 있습니다.

import re

searchfor = ['og', 'at']
regex = '|'.join(searchfor)
df['matching_column'][df['matching_column'].str.contains(regex)]

이 접근 방식은 반복 방법보다 더 효율적이며 원하는 결과를 효과적으로 얻을 수 있습니다.

특수 문자 처리:

하위 문자열에 $와 같이 정규식 의미가 있는 특수 문자가 포함된 경우 또는 ^, 문자 그대로 해석되도록 re.escape()를 사용하여 이스케이프해야 합니다.

위 내용은 Pandas 시리즈에 주어진 목록의 하위 문자열이 포함되어 있는지 효율적으로 확인하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.