在Python 中取得字串相似度量
決定字串之間的相似度是各種自然語言處理應用程式中的一項關鍵任務。 Python 提供了強大的函式庫來協助實現這一目標。
方法:
為了計算兩個字串之間的相似性度量,difflib 模組提供了序列匹配器類別。此類別使用不同的演算法(包括最長公共子序列 (LCS) 演算法)來評估兩個序列(在本例中為字串)之間的相似性。
實作:
from difflib import SequenceMatcher def similar(a, b): return SequenceMatcher(None, a, b).ratio()
similar 函數接受兩個字串,a 和b,並傳回表示它們之間相似度的十進制值,範圍從0(不相似)到1(完全相似)。
用法:
print(similar("Apple", "Appel")) # Expected output: 0.8 (high similarity) print(similar("Apple", "Mango")) # Expected output: 0.0 (low similarity)在這個例子中,「Apple」和「Appel」之間的相似度很高,顯示相似的機率很高,而「Apple」和「Appel」之間的相似度「Apple」和「Mango」較低,表示相似機率較低。
以上是Python的`difflib`如何有效率地計算字串相似度?的詳細內容。更多資訊請關注PHP中文網其他相關文章!