ホームページ >バックエンド開発 >Python チュートリアル >テキスト分類の ML モデルの精度を向上させるにはどうすればよいですか?

テキスト分類の ML モデルの精度を向上させるにはどうすればよいですか?

WBOY
WBOYオリジナル
2024-08-06 20:16:301140ブラウズ

How to improve ML Model Accuracy for Text Classification?

専門家の皆様、

私たちはテキスト分類問題を扱っています。約 50 クラスの約 80,000 件のレコードがあります。データは非常に不均衡です。 2 つの列があり、1 つは説明用、もう 1 つはクラスを含みます。
これまで、次のモデルとテクニックを試してきました:

  1. データの前処理: a.小文字変換、数値テキストの削除、削除 句読点 b.重要でない単語やストップワードを削除しました c.見出し語化
  2. TFIDF 変換
  3. SKLEARN モデルの使用: a.線形SVC b.線形回帰 c.ロジスティック回帰 d.ディシジョン ツリー e.ランダムフォレスト
  4. ハギングフェイストランスフォーマーの使用: a.グーグルバート b.バートを蒸留します
  5. SMOTE サンプリング

得られた最大精度は 70% であることがわかります (ランダム フォレストと Google Bert)。
精度を向上させる余地はありますか?
「はい」の場合、精度を向上させるために他にどのような手法やモデルを使用できますか?

以上がテキスト分類の ML モデルの精度を向上させるにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
前の記事:Python リスト次の記事:Python リスト