如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的
PHP中文网2017-04-18 10:33:37
첫 번째 단계는 기사를 중국어 단어로 분할한 다음 두 기사에 포함된 각 단어의 tf-idf 값을 계산하는 것입니다. 그런 다음 Python에서 gensim을 사용하여 구현할 수 있는 두 기사의 코사인 유사성을 계산합니다.
궁금한 점이 있으시면 계속 질문해주세요.
迷茫2017-04-18 10:33:37
1층 답변에 추가
코사인 유사성이나 TF-IDF를 소비할 때는 불용어를 먼저 제거해야 합니다.
불용어는 영어 단어인 stopword에서 번역됩니다. 영어에서는 종종 관사, 전치사인 a, the, or 등과 같이 자주 사용되는 단어나 단어를 접하게 됩니다. , 부사 또는 접속사 등
부사, 접속사 등의 단어는 우리의 의미판단에 큰 영향을 미치지 않기 때문입니다.
그러나 단순 코사인 유사성과 TF-IDF는 특정 상황에서는 그다지 신뢰할 수 없습니다.
여기에 자신의 링크 2333을 푸시하세요
위 알고리즘과 함께 textrank를 사용하는 것이 좋습니다