如何衡量文本文檔之間的相似度？-Python教學-PHP中文網

首頁

後端開發

Python教學

如何衡量文本文檔之間的相似度？

DDD

Oct 23, 2024 am 06:55 AM

How to Measure the Similarity Between Text Documents?

確定文本文檔之間的相似度

測量文檔相似度

為了確定NLP 中兩個文本文檔之間的相似度，標準方法是將文件轉換為TF-IDF 向量。然後利用這些向量來計算餘弦相似度，這是資訊檢索系統中常用的一種量測。如需更深入的信息，請參閱線上電子書《資訊檢索簡介》。

Python 中的實作

Python 提供了 Gensim 等函式庫和 scikit-learn 有助於計算 TF-IDF 和餘弦相似度。在scikit-learn 中，計算文件之間的餘弦相似度涉及利用它們的TF-IDF 向量：

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
pairwise_similarity = tfidf * tfidf.T</code>

可以直接處理純文字文件：

<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away"]
tfidf = TfidfVectorizer(min_df=1, stop_words="english").fit_transform(corpus)
pairwise_similarity = tfidf * tfidf.T</code>

解釋結果

產生的稀疏矩陣pairwise_similarity是正方形的。要識別與給定文檔最相似的文檔，您可以在屏蔽對角線元素（表示自相似性）後使用 NumPy 的 argmax 函數。

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()
np.fill_diagonal(arr, np.nan)
input_doc = "Document to compare"
input_idx = corpus.index(input_doc)
result_idx = np.nanargmax(arr[input_idx])
most_similar_doc = corpus[result_idx]</code>

以上是如何衡量文本文檔之間的相似度？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

了解差異：用於循環和python中的循環May 16, 2025 am 12:17 AM

theDifferenceBetweewneaforoopandawhileLoopInpythonisthataThataThataThataThataThataThataNumberoFiterationSiskNownInAdvance，而leleawhileLoopisusedWhenaconDitionNeedneedneedneedNeedStobeCheckedStobeCheckedStobeCheckedStobeCheckedStobeceDrepeTysepectients.peatsiveSectlyStheStobeCeptellyWithnumberofiterations.1）forloopsareAceareIdealForitoringercortersence

Python循環控制：對於vs -a -a比較May 16, 2025 am 12:16 AM

在Python中，for循環適用於已知迭代次數的情況，而while循環適合未知迭代次數且需要更多控制的情況。 1）for循環適用於遍歷序列，如列表、字符串等，代碼簡潔且Pythonic。 2）while循環在需要根據條件控制循環或等待用戶輸入時更合適，但需注意避免無限循環。 3）性能上，for循環略快，但差異通常不大。選擇合適的循環類型可以提高代碼的效率和可讀性。

如何在Python中結合兩個列表：5種簡單的方法May 16, 2025 am 12:16 AM

在Python中，可以通過五種方法合併列表：1)使用運算符，簡單直觀，適用於小列表；2)使用extend()方法，直接修改原列表，適用於需要頻繁更新的列表；3)使用列表解析式，簡潔且可對元素進行操作；4)使用itertools.chain()函數，內存高效，適合大數據集；5)使用*運算符和zip()函數，適用於需要配對元素的場景。每種方法都有其特定用途和優缺點，選擇時應考慮項目需求和性能。

循環時循環：python語法，用例和示例May 16, 2025 am 12:14 AM

foroopsare whenthenemberofiterationsisknown，而whileLoopsareUseduntilacTitionismet.1）ForloopSareIdealForeSequencesLikeLists，UsingSyntaxLike'forfruitinFruitinFruitinFruitIts：print（fruit）'。 2）'

python串聯列表列表May 16, 2025 am 12:08 AM

toConcateNateAlistofListsInpython，useextend，listComprehensions，itertools.Chain，orrecursiveFunctions.1）ExtendMethodStraightForwardButverBose.2）listComprechencomprechensionsareconconconciseandemandeconeandefforlargerdatasets.3）