Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?

Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-10-23 06:53:30243semak imbas

How to Measure Text Similarity using TF-IDF and Cosine Similarity?

Mengukur Kesamaan Teks dengan TF-IDF dan Kesamaan Kosinus

Menentukan persamaan antara dua dokumen teks ialah tugas penting dalam perlombongan teks dan maklumat mendapatkan semula. Satu pendekatan popular melibatkan penggunaan TF-IDF (Term Frequency-Inverse Document Frequency) dan kesamaan kosinus.

TF-IDF memberikan pemberat kepada setiap perkataan dalam dokumen berdasarkan kekerapannya dalam dokumen itu dan kelangkaannya merentasi korpus dokumen. Dokumen dengan corak perkataan yang serupa akan berkongsi vektor TF-IDF yang lebih tinggi.

Persamaan kosinus mengukur sudut antara dua vektor, memberikan nilai antara 0 (tiada persamaan) dan 1 (persamaan sempurna). Dalam kes kami, vektor TF-IDF bagi kedua-dua dokumen membentuk vektor ini, dan persamaan kosinus mengukur sudutnya.

Pelaksanaan Python

Dalam Python, menggunakan Pakej scikit-learn dan Gensim, pengiraan persamaan berpasangan adalah mudah:

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
pairwise_similarity = tfidf * tfidf.T</code>

Sebagai alternatif, jika dokumen sudah bertali, gunakan:

<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away", "..."]
vect = TfidfVectorizer(min_df=1, stop_words="english")
tfidf = vect.fit_transform(corpus)
pairwise_similarity = tfidf * tfidf.T</code>

Mentafsir Keputusan

pairwise_similarity ialah matriks jarang yang mewakili persamaan antara setiap pasangan dokumen. Untuk mencari dokumen yang paling serupa dengan dokumen tertentu, tutupkan kesamaan dokumen dengan dirinya sendiri (tetapkan kepada NaN) dan cari nilai maksimum dalam barisnya menggunakan np.nanargmax():

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()
np.fill_diagonal(arr, np.nan)
input_doc = "The scikit-learn docs are Orange and Blue"
input_idx = corpus.index(input_doc)
result_idx = np.nanargmax(arr[input_idx])
similar_doc = corpus[result_idx]</code>

Pertimbangan Lain

Untuk korpora dan perbendaharaan kata besar, menggunakan matriks jarang adalah lebih cekap daripada menukar kepada tatasusunan NumPy.

Dengan melaraskan parameter dalam TfidfVectorizer, seperti min_df untuk dokumen minimum kekerapan, pengiraan TF-IDF boleh disesuaikan untuk memenuhi keperluan khusus.

Sumber Tambahan

  • [Pengenalan kepada Pengambilan Maklumat](http://infolab .stanford.edu/~backrub/classes/2002/cs276/handouts/04-tfidf.pdf)
  • [Mengkomputerkan Persamaan Berpasangan dengan Gensim](https://stackoverflow.com/questions/23752770/computing- berpasangan-persamaan-dengan-gensim)

Atas ialah kandungan terperinci Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn