如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的
PHP中文网2017-04-18 10:33:37
最初のステップはすでに完了しています。まず記事を中国語の単語に分割し、次に 2 つの記事内の各単語の tf-idf 値を計算します。次に、2 つの記事のコサイン類似度を計算します。これは、Python の gensim を使用して実装できます。
ご不明な点がございましたら、引き続きご質問ください。
迷茫2017-04-18 10:33:37
1階の回答に追記してください
コサイン類似度やTF-IDFを使用する場合は、まずストップワードを削除する必要があります。
ストップワードは英語の単語から翻訳されたものです: stopword 英語では、a、the、or など、多くの場合、冠詞、前置詞、副詞、接続詞など、頻繁に使用される単語に遭遇することがわかります。 。
副詞や接続詞などの単語は私たちの意味判断に大きな影響を与えないからです。
しかし、単純コサイン類似度と TF-IDF は、特定の状況下ではあまり信頼できません。
ここに自分のリンク 2333 を押してください
textrankを上記のアルゴリズムと組み合わせて使用することをお勧めします