Maison >développement back-end >Tutoriel Python >Comment améliorer la précision du modèle ML pour la classification de texte ?

Comment améliorer la précision du modèle ML pour la classification de texte ?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-08-06 20:16:301238parcourir

How to improve ML Model Accuracy for Text Classification?

Bonjour les experts,

Nous sommes confrontés à un problème de classification de texte. Nous avons environ 80 000 enregistrements avec environ 50 classes. Les données sont très déséquilibrées. Il comporte 2 colonnes, une pour la description et l'autre contenant la classe.
Jusqu'à présent, nous avons essayé les modèles et techniques suivants :

Prétraitement des données : un. Conversion en minuscules, textes numériques supprimés, supprimés ponctuations b. Suppression des mots sans importance et des mots vides c. Lemmatisation
Transformation TFIDF
Utilisation des modèles SKLEARN : un. SVC linéaire b. Régression linéaire c. Régression logistique d. Arbres de décision e. Forêt aléatoire
Utilisation des transformateurs Huggingface : un. Google Bert b. Distiller Bert
Échantillonnage SMOTE

On observe que la précision maximale que nous avons obtenue est de 70 % (Random Forest et Google Bert).
Existe-t-il des possibilités d'amélioration de la précision ?
Si oui, quelles autres techniques ou modèles pouvons-nous utiliser pour améliorer la précision ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

if for using class sklearn bert

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Liste PythonArticle suivant：Liste Python

Articles Liés

Voir plus