Maison >développement back-end >Tutoriel Python >Comment améliorer la précision du modèle ML pour la classification de texte ?

Comment améliorer la précision du modèle ML pour la classification de texte ?

WBOY
WBOYoriginal
2024-08-06 20:16:301140parcourir

How to improve ML Model Accuracy for Text Classification?

Bonjour les experts,

Nous sommes confrontés à un problème de classification de texte. Nous avons environ 80 000 enregistrements avec environ 50 classes. Les données sont très déséquilibrées. Il comporte 2 colonnes, une pour la description et l'autre contenant la classe.
Jusqu'à présent, nous avons essayé les modèles et techniques suivants :

  1. Prétraitement des données : un. Conversion en minuscules, textes numériques supprimés, supprimés ponctuations b. Suppression des mots sans importance et des mots vides c. Lemmatisation
  2. Transformation TFIDF
  3. Utilisation des modèles SKLEARN : un. SVC linéaire b. Régression linéaire c. Régression logistique d. Arbres de décision e. Forêt aléatoire
  4. Utilisation des transformateurs Huggingface : un. Google Bert b. Distiller Bert
  5. Échantillonnage SMOTE

On observe que la précision maximale que nous avons obtenue est de 70 % (Random Forest et Google Bert).
Existe-t-il des possibilités d'amélioration de la précision ?
Si oui, quelles autres techniques ou modèles pouvons-nous utiliser pour améliorer la précision ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Article précédent:Liste PythonArticle suivant:Liste Python