使用Python 標準庫測量字串相似性
量化兩個字串之間的相似性在各種應用程式中是一項有價值的任務。 Python 提供了一個標準函式庫,為此目的提供了方便的解決方案。
問題:
我們如何確定 Python 中一個字串與另一個字串相似的機率?我們的目標是獲得一個小數值,例如 0.9 (90%),來表示相似程度。
解:
Python 的 difflib 模組包含 SequenceMatcher 類,這有利於字串相似度的計算。該類別的ratio()方法傳回[0, 1]範圍內的十進制值,其中0表示不相似,1表示完全相似。
實作:
from difflib import SequenceMatcher def similar(a, b): return SequenceMatcher(None, a, b).ratio()
範例用法:
>>> similar("Apple", "Appel") 0.8 >>> similar("Apple", "Mango") 0.0
這些範例說明「Apple」和「」 」由於拼字接近而具有較高的相似度得分(0.8),而「Apple」和「Mango」的相似度得分較低相似度得分 (0.0),因為它們非常不同。
以上是如何在 Python 中計算字串相似度作為機率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!