Rumah > Soal Jawab > teks badan
如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的
PHP中文网2017-04-18 10:33:37
Langkah pertama yang anda berikan ialah membahagikan artikel ke dalam perkataan Cina, dan kemudian mengira nilai tf-idf bagi setiap perkataan dalam dua artikel. Kemudian hitung persamaan kosinus kedua-dua artikel, yang boleh dilaksanakan menggunakan gensim dalam Python.
Jika anda mempunyai sebarang pertanyaan, sila teruskan bertanya.
迷茫2017-04-18 10:33:37
Tambahkan pada jawapan di tingkat satu
Apabila menggunakan persamaan kosinus atau TF-IDF, perkataan henti hendaklah dialih keluar dahulu.
Kata henti diterjemahkan daripada perkataan Inggeris: stopword Ternyata dalam bahasa Inggeris, anda akan menemui banyak perkataan atau perkataan yang kerap digunakan seperti a, the, or, etc., yang selalunya merupakan artikel, preposisi. , adverba atau Kata Hubung dll.
Kerana perkataan seperti adverba dan kata sendi tidak banyak mempengaruhi pertimbangan semantik kita.
Tetapi persamaan kosinus mudah dan TF-IDF tidak begitu boleh dipercayai dalam keadaan tertentu.
Tekan pautan anda sendiri 2333 di sini
Adalah disyorkan untuk menggunakan textrank dalam kombinasi dengan algoritma di atas