Rumah  >  Soal Jawab  >  teks badan

django - python实现两篇文章相似度分析

如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的

PHP中文网PHP中文网2741 hari yang lalu646

membalas semua(2)saya akan balas

  • PHP中文网

    PHP中文网2017-04-18 10:33:37

    Langkah pertama yang anda berikan ialah membahagikan artikel ke dalam perkataan Cina, dan kemudian mengira nilai tf-idf bagi setiap perkataan dalam dua artikel. Kemudian hitung persamaan kosinus kedua-dua artikel, yang boleh dilaksanakan menggunakan gensim dalam Python.

    Jika anda mempunyai sebarang pertanyaan, sila teruskan bertanya.

    balas
    0
  • 迷茫

    迷茫2017-04-18 10:33:37

    Tambahkan pada jawapan di tingkat satu
    Apabila menggunakan persamaan kosinus atau TF-IDF, perkataan henti hendaklah dialih keluar dahulu.

    Kata henti diterjemahkan daripada perkataan Inggeris: stopword Ternyata dalam bahasa Inggeris, anda akan menemui banyak perkataan atau perkataan yang kerap digunakan seperti a, the, or, etc., yang selalunya merupakan artikel, preposisi. , adverba atau Kata Hubung dll.
    Kerana perkataan seperti adverba dan kata sendi tidak banyak mempengaruhi pertimbangan semantik kita.

    Tetapi persamaan kosinus mudah dan TF-IDF tidak begitu boleh dipercayai dalam keadaan tertentu.
    Tekan pautan anda sendiri 2333 di sini

    Adalah disyorkan untuk menggunakan textrank dalam kombinasi dengan algoritma di atas

    balas
    0
  • Batalbalas