Python - sklearn を使用して大きなテキストの tfidf 特徴を見つけますか?

Question

上記のデータは、ロイター データ セットの 7303 トレーニング セットから取得され、tfidf 特徴を取得するために sklearn が使用されています。取得された結果はすべて 0 です。何が起こっているのでしょうか?このデータの一部を取得すると、データのこれらの小さな部分に対して正しい tfidf 結果を取得できます。

扔个三星炸死你 · Answer

上記のコードは、精度が低すぎるか、min_count が原因である可能性があります

たとえば、単語の頻度が 1 で単語の総数が 1e9 の場合、対応する tf は 1e-9 であり、これは無視されます。

Python - sklearn を使用して大きなテキストの tfidf 特徴を見つけますか?

全員に返信(1)返信します