Rumah > Soal Jawab > teks badan
Saya menulis program python kecil kira-kira 70 baris untuk mengira persamaan dokumen.
Bahannya ialah 88 dokumen kertas, menggunakan pakej gensim.
Proses program ini adalah untuk mempraproses dokumen (memadam simbol yang tidak diperlukan, pembahagian perkataan, dsb.), mengira nilai tfidf dokumen, dan mewujudkan model tfidf dan indeks model bagi 88 kertas. Sehingga tahap ini program berjalan seperti biasa, tetapi apabila menggunakan indeks, ralat dilaporkan:
Apakah punca ini? Terima kasih~
Berikut adalah sebahagian daripada kod sumber yang berjalan tanpa masalah:
#分词:
texts = [[word for word in document.split()]for document in documents]
#利用所有文档,创建词典
dictionary = corpora.Dictionary(texts)
#创建语料
corpus = [dictionary.doc2bow(text) for text in texts]
#利用这些语料,创建tfidf模型
tfidf_model = models.TfidfModel(corpus)
#计算每个文档的tfidf
tfidfs = tfidf_model[corpus]
#创建tfidf的索引
index = similarities.SparseMatrixSimilarity(tfidfs,num_features=88075)
Terdapat masalah semasa menjalankan kod ini:
#创建目标文档的语料
content = 'A student of music needs as long and as arduous a training to become a performer as a medical student needs to become a doctor'
content = content.lower().split()
test = dictionary.doc2bow(content)
#计算目标文档的tfidf
test_tfidf = tfidf_model[test]
sims = index[test_tfidf]#**就是这一句出现了问题!**
ringa_lee2017-05-18 10:49:38
Apakah versi python anda? Pada masa ini gensim
的版本?是否和官网测试过的稳定版一致?还有,建议使用类Unix系统,gensim基于 NumPy
和 Scipy
, sukar untuk memasang kedua-dua ini walaupun dipasang, mungkin tidak ada masalah
曾经蜡笔没有小新2017-05-18 10:49:38
Ralat ini juga mungkin disebabkan oleh sistem pengendalian Windows Jika anda menyalin kod ke Google, anda akan menemui banyak penyelesaian, seperti yang ini:
某草草2017-05-18 10:49:38
http://www.wiki-errors.com/do... Hanya muat turun dan pasangkannya Kembali ke Baidu untuk memastikan keselamatan anda.