


Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?
Mengukur Kesamaan Teks dengan TF-IDF dan Kesamaan Kosinus
Menentukan persamaan antara dua dokumen teks ialah tugas penting dalam perlombongan teks dan maklumat mendapatkan semula. Satu pendekatan popular melibatkan penggunaan TF-IDF (Term Frequency-Inverse Document Frequency) dan kesamaan kosinus.
TF-IDF memberikan pemberat kepada setiap perkataan dalam dokumen berdasarkan kekerapannya dalam dokumen itu dan kelangkaannya merentasi korpus dokumen. Dokumen dengan corak perkataan yang serupa akan berkongsi vektor TF-IDF yang lebih tinggi.
Persamaan kosinus mengukur sudut antara dua vektor, memberikan nilai antara 0 (tiada persamaan) dan 1 (persamaan sempurna). Dalam kes kami, vektor TF-IDF bagi kedua-dua dokumen membentuk vektor ini, dan persamaan kosinus mengukur sudutnya.
Pelaksanaan Python
Dalam Python, menggunakan Pakej scikit-learn dan Gensim, pengiraan persamaan berpasangan adalah mudah:
<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer documents = [open(f).read() for f in text_files] tfidf = TfidfVectorizer().fit_transform(documents) pairwise_similarity = tfidf * tfidf.T</code>
Sebagai alternatif, jika dokumen sudah bertali, gunakan:
<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away", "..."] vect = TfidfVectorizer(min_df=1, stop_words="english") tfidf = vect.fit_transform(corpus) pairwise_similarity = tfidf * tfidf.T</code>
Mentafsir Keputusan
pairwise_similarity ialah matriks jarang yang mewakili persamaan antara setiap pasangan dokumen. Untuk mencari dokumen yang paling serupa dengan dokumen tertentu, tutupkan kesamaan dokumen dengan dirinya sendiri (tetapkan kepada NaN) dan cari nilai maksimum dalam barisnya menggunakan np.nanargmax():
<code class="python">import numpy as np arr = pairwise_similarity.toarray() np.fill_diagonal(arr, np.nan) input_doc = "The scikit-learn docs are Orange and Blue" input_idx = corpus.index(input_doc) result_idx = np.nanargmax(arr[input_idx]) similar_doc = corpus[result_idx]</code>
Pertimbangan Lain
Untuk korpora dan perbendaharaan kata besar, menggunakan matriks jarang adalah lebih cekap daripada menukar kepada tatasusunan NumPy.
Dengan melaraskan parameter dalam TfidfVectorizer, seperti min_df untuk dokumen minimum kekerapan, pengiraan TF-IDF boleh disesuaikan untuk memenuhi keperluan khusus.
Sumber Tambahan
- [Pengenalan kepada Pengambilan Maklumat](http://infolab .stanford.edu/~backrub/classes/2002/cs276/handouts/04-tfidf.pdf)
- [Mengkomputerkan Persamaan Berpasangan dengan Gensim](https://stackoverflow.com/questions/23752770/computing- berpasangan-persamaan-dengan-gensim)
Atas ialah kandungan terperinci Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Untuk memaksimumkan kecekapan pembelajaran Python dalam masa yang terhad, anda boleh menggunakan modul, masa, dan modul Python. 1. Modul DateTime digunakan untuk merakam dan merancang masa pembelajaran. 2. Modul Masa membantu menetapkan kajian dan masa rehat. 3. Modul Jadual secara automatik mengatur tugas pembelajaran mingguan.

Python cemerlang dalam permainan dan pembangunan GUI. 1) Pembangunan permainan menggunakan pygame, menyediakan lukisan, audio dan fungsi lain, yang sesuai untuk membuat permainan 2D. 2) Pembangunan GUI boleh memilih tkinter atau pyqt. TKInter adalah mudah dan mudah digunakan, PYQT mempunyai fungsi yang kaya dan sesuai untuk pembangunan profesional.

Python sesuai untuk sains data, pembangunan web dan tugas automasi, manakala C sesuai untuk pengaturcaraan sistem, pembangunan permainan dan sistem tertanam. Python terkenal dengan kesederhanaan dan ekosistem yang kuat, manakala C dikenali dengan keupayaan kawalan dan keupayaan kawalan yang mendasari.

Anda boleh mempelajari konsep pengaturcaraan asas dan kemahiran Python dalam masa 2 jam. 1. Belajar Pembolehubah dan Jenis Data, 2.

Python digunakan secara meluas dalam bidang pembangunan web, sains data, pembelajaran mesin, automasi dan skrip. 1) Dalam pembangunan web, kerangka Django dan Flask memudahkan proses pembangunan. 2) Dalam bidang sains data dan pembelajaran mesin, numpy, panda, scikit-learn dan perpustakaan tensorflow memberikan sokongan yang kuat. 3) Dari segi automasi dan skrip, Python sesuai untuk tugas -tugas seperti ujian automatik dan pengurusan sistem.

Anda boleh mempelajari asas -asas Python dalam masa dua jam. 1. Belajar pembolehubah dan jenis data, 2. Struktur kawalan induk seperti jika pernyataan dan gelung, 3 memahami definisi dan penggunaan fungsi. Ini akan membantu anda mula menulis program python mudah.

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver Mac版
Alat pembangunan web visual

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Dreamweaver CS6
Alat pembangunan web visual