首页  >  问答  >  正文

django - python实现两篇文章相似度分析

如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的

PHP中文网PHP中文网2741 天前645

全部回复(2)我来回复

  • PHP中文网

    PHP中文网2017-04-18 10:33:37

    第一步你已经给出了,首先对文章进行中文分词,然后计算每个词在两篇文章中的tf-idf值。然后计算两个文章的余弦相似度,可以用Python中的gensim实现。

    有疑问请继续提问。

    回复
    0
  • 迷茫

    迷茫2017-04-18 10:33:37

    补一下一楼的答案
    在食用余弦相似性或TF-IDF,应该首先去掉停止词。

    停止词,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。
    因为副词,连词这类词语并不会十分影响我们对语义的判断。

    但是单纯的余弦相似性和TF-IDF某种情况下并不能十分的可靠。
    推一波自己的链接2333这里

    建议使用textrank和以上算法进行结合

    回复
    0
  • 取消回复