recherche

Maison  >  Questions et réponses  >  le corps du texte

django - python实现两篇文章相似度分析

如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的

PHP中文网PHP中文网2795 Il y a quelques jours693

répondre à tous(2)je répondrai

  • PHP中文网

    PHP中文网2017-04-18 10:33:37

    La première étape que vous avez donnée consiste à segmenter les articles en mots chinois, puis à calculer la valeur tf-idf de chaque mot dans les deux articles. Calculez ensuite la similarité cosinus des deux articles, qui peut être implémentée en utilisant gensim en Python.

    Si vous avez des questions, continuez à les poser.

    répondre
    0
  • 迷茫

    迷茫2017-04-18 10:33:37

    Ajouter à la réponse au premier étage
    Lors de la consommation de similarité cosinus ou TF-IDF, les mots vides doivent être supprimés en premier.

    Le mot vide est traduit du mot anglais : mot vide. Il s'avère qu'en anglais, vous rencontrerez de nombreux mots ou mots fréquemment utilisés comme a, the, or, etc., qui sont souvent des articles, des prépositions. , adverbes ou conjonctions etc.
    Parce que les mots tels que les adverbes et les conjonctions n'affectent pas beaucoup notre jugement sémantique.

    Mais la simple similarité cosinus et TF-IDF ne sont pas très fiables dans certaines circonstances.
    Poussez votre propre lien 2333 ici

    Il est recommandé d'utiliser textrank en combinaison avec l'algorithme ci-dessus

    répondre
    0
  • Annulerrépondre