首頁 >後端開發 >Python教學 >如何在 Pandas DataFrame 中高效執行部分字串比對?

如何在 Pandas DataFrame 中高效執行部分字串比對?

Patricia Arquette
Patricia Arquette原創
2024-12-16 15:15:15948瀏覽

How Can I Efficiently Perform Partial String Matching in Pandas DataFrames?

Pandas DataFrame 中的部分字串符合

基於字串條件過濾 DataFrame 是資料分析中的常見任務。雖然使用 == 運算子進行精確字串匹配很簡單,但部分字串匹配需要不同的方法。

一種選擇是使用正規表示式,如問題中的程式碼片段所示:

re.search(pattern, cell_in_question)

但是,對於大型DataFrame,由於其迭代性質,這種方法可能效率低下。

使用Pandas Series.str 方法的向量化解決方案是可用且強烈建議以獲得更好的性能:

df[df['A'].str.contains("hello")]

此方法使用內建的contains() 函數來檢查子字串是否存在於一系列字串中。它傳回一個可用於過濾 DataFrame 的布林遮罩。

在Pandas 的早期版本(0.8.1 之前)中,使用了略有不同的語法:

df['A'].apply(lambda x: "hello" in x)

無論如何根據您選擇的方法,Pandas DataFrames 中的部分字符串匹配是高效過濾資料的強大工具。

以上是如何在 Pandas DataFrame 中高效執行部分字串比對?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn