django - python实现两篇文章相似度分析

Question

如题，最近有需求要做文章相似度分析，需求很简单，具体就是对比两篇分别300字左右的文章的相似度情况，目前查到的方法，需要先中文分词（jieba），然后对比相似度，时间紧任务重，不知道有没有做过类似功能的大...

PHP中文网 · Answer

첫 번째 단계는 기사를 중국어 단어로 분할한 다음 두 기사에 포함된 각 단어의 tf-idf 값을 계산하는 것입니다. 그런 다음 Python에서 gensim을 사용하여 구현할 수 있는 두 기사의 코사인 유사성을 계산합니다.

궁금한 점이 있으시면 계속 질문해주세요.

迷茫 · Answer

1층 답변에 추가
코사인 유사성이나 TF-IDF를 소비할 때는 불용어를 먼저 제거해야 합니다.

불용어는 영어 단어인 stopword에서 번역됩니다. 영어에서는 종종 관사, 전치사인 a, the, or 등과 같이 자주 사용되는 단어나 단어를 접하게 됩니다. , 부사 또는 접속사 등
부사, 접속사 등의 단어는 우리의 의미판단에 큰 영향을 미치지 않기 때문입니다.

그러나 단순 코사인 유사성과 TF-IDF는 특정 상황에서는 그다지 신뢰할 수 없습니다.
여기에 자신의 링크 2333을 푸시하세요

위 알고리즘과 함께 textrank를 사용하는 것이 좋습니다