如何使用 TF-IDF 和餘弦相似度測量文字相似度？-Python教學-PHP中文網

首頁

後端開發

Python教學

如何使用 TF-IDF 和餘弦相似度測量文字相似度？

Mary-Kate Olsen

Oct 23, 2024 am 06:53 AM

How to Measure Text Similarity using TF-IDF and Cosine Similarity?

使用TF-IDF 和餘弦相似度測量文本相似度

確定兩個文本文檔之間的相似度是文本挖掘和資訊中的一項關鍵任務檢索。一種流行的方法是利用 TF-IDF（術語頻率-逆文檔頻率） 和 餘弦相似度。

TF-IDF 分配權重根據文件中每個單字在該文件中的出現頻率及其在整個文件語料庫中的稀有性來對文件中的每個單字進行分類。具有相似單字模式的文件將共用更高的 TF-IDF 向量。

餘弦相似度 測量兩個向量之間的角度，提供 0（無相似性）和 1（完全相似）之間的值。在我們的例子中，兩個文件的 TF-IDF 向量形成了這些向量，餘弦相似度量化了它們的角度。

Python 實作

在Python 中，使用scikit-learn 和Gensim 包，計算成對相似度很包簡單：

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
pairwise_similarity = tfidf * tfidf.T</code>

或者，如果文件已經是字串，請使用：

<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away", "..."]
vect = TfidfVectorizer(min_df=1, stop_words="english")
tfidf = vect.fit_transform(corpus)
pairwise_similarity = tfidf * tfidf.T</code>

解釋結果

pairwise_similarity 是稀疏性矩陣，表示每個文檔對之間的相似度。要查找與特定文檔最相似的文檔，請屏蔽文檔與其自身的相似性（將其設置為NaN），並使用np.nanargmax() 查找其行中的最大值：

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()
np.fill_diagonal(arr, np.nan)
input_doc = "The scikit-learn docs are Orange and Blue"
input_idx = corpus.index(input_doc)
result_idx = np.nanargmax(arr[input_idx])
similar_doc = corpus[result_idx]</code>

其他注意事項

對於大型語料庫和詞彙表，使用稀疏矩陣比轉換為NumPy 數組更有效率。

透過調整 TfidfVectorizer 中的參數，例如最小文件的 min_df頻率，可以自訂 TF-IDF 計算以滿足特定要求。

其他資源

[資訊擷取簡介](http://infolab .stanford.edu/~backrub/classes/2002/cs276/handouts/stanford.edu/~backrub/classes/2002/cs276/handouts/ 04-tfidf.pdf)
[使用Gensim 計算成對相似性](https://stackoverflow.com/questions/23752770/computing-與gensim 的成對相似性）

以上是如何使用 TF-IDF 和餘弦相似度測量文字相似度？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python：編譯器還是解釋器？May 13, 2025 am 12:10 AM

Python是解釋型語言，但也包含編譯過程。 1）Python代碼先編譯成字節碼。 2）字節碼由Python虛擬機解釋執行。 3）這種混合機制使Python既靈活又高效，但執行速度不如完全編譯型語言。

python用於循環與循環時：何時使用哪個？May 13, 2025 am 12:07 AM

UseeAforloopWheniteratingOveraseQuenceOrforAspecificnumberoftimes; useAwhiLeLoopWhenconTinuingUntilAcIntiment.forloopsareIdealForkNownsences，而WhileLeleLeleLeleLeleLoopSituationSituationsItuationsItuationSuationSituationswithUndEtermentersitations。

Python循環：最常見的錯誤May 13, 2025 am 12:07 AM

pythonloopscanleadtoerrorslikeinfiniteloops，modifyingListsDuringteritation，逐個偏置，零indexingissues，andnestedloopineflinefficiencies

對於循環和python中的循環時：每個循環的優點是什麼？May 13, 2025 am 12:01 AM

forloopsareadvantageousforknowniterations and sequests，供應模擬性和可讀性；而LileLoopSareIdealFordyNamicConcitionSandunknowniterations，提供ControloperRoverTermination.1）forloopsareperfectForeTectForeTerToratingOrtratingRiteratingOrtratingRitterlistlistslists，callings conspass，calplace，cal，ofstrings ofstrings，orstrings，orstrings，orstrings ofcces

Python：深入研究彙編和解釋May 12, 2025 am 12:14 AM

pythonisehybridmodeLofCompilation和interpretation：1）thepythoninterpretercompilesourcecececodeintoplatform- interpententbybytecode.2）thepythonvirtualmachine（pvm）thenexecutecutestestestestestesthisbytecode，ballancingEaseofuseEfuseWithPerformance。

Python是一種解釋或編譯語言，為什麼重要？May 12, 2025 am 12:09 AM

pythonisbothinterpretedAndCompiled.1）它的compiledTobyTecodeForportabilityAcrosplatforms.2）bytecodeisthenInterpreted，允許fordingfordforderynamictynamictymictymictymictyandrapiddefupment，儘管Ititmaybeslowerthananeflowerthanancompiledcompiledlanguages。

對於python中的循環時循環與循環：解釋了關鍵差異May 12, 2025 am 12:08 AM

在您的知識之際，而foroopsareideal insinAdvance中，而WhileLoopSareBetterForsituations則youneedtoloopuntilaconditionismet

循環時：實用指南May 12, 2025 am 12:07 AM

ForboopSareSusedwhenthentheneMberofiterationsiskNownInAdvance，而WhileLoopSareSareDestrationsDepportonAcondition.1）ForloopSareIdealForiteratingOverSequencesLikelistSorarrays.2）whileLeleLooleSuitableApeableableableableableableforscenarioscenarioswhereTheLeTheLeTheLeTeLoopContinusunuesuntilaspecificiccificcificCondond

See all articles