Heim >Backend-Entwicklung >Python-Tutorial >Wie kann die Genauigkeit des ML-Modells für die Textklassifizierung verbessert werden?

Wie kann die Genauigkeit des ML-Modells für die Textklassifizierung verbessert werden?

WBOY
WBOYOriginal
2024-08-06 20:16:301139Durchsuche

How to improve ML Model Accuracy for Text Classification?

Hallo Experten,

Wir beschäftigen uns mit dem Problem der Textklassifizierung. Wir haben rund 80.000 Datensätze mit rund 50 Klassen. Die Datenlage ist stark unausgewogen. Es hat 2 Spalten, eine für die Beschreibung und die andere enthält die Klasse.
Bisher haben wir folgende Modelle und Techniken ausprobiert:

  1. Datenvorverarbeitung: A. Kleinbuchstabenkonvertierung, numerische Texte entfernt, entfernt Satzzeichen B. Unwichtige Wörter und Stoppwörter entfernt C. Lemmatisierung
  2. TFIDF-Transformation
  3. Verwendung von SKLEARN-Modellen: A. Linearer SVC B. Lineare Regression C. Logistische Regression D. Entscheidungsbäume e. Zufälliger Wald
  4. Verwendung von Huggingface-Transformern: A. Google Bert B. Destillieren Sie Bert
  5. SMOTE-Probenahme

Es wird beobachtet, dass die maximale Genauigkeit, die wir erreicht haben, 70 % beträgt (Random Forest und Google Bert).
Gibt es Möglichkeiten zur Verbesserung der Genauigkeit?
Wenn ja, welche anderen Techniken oder Modelle können wir verwenden, um die Genauigkeit zu verbessern?

Das obige ist der detaillierte Inhalt vonWie kann die Genauigkeit des ML-Modells für die Textklassifizierung verbessert werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:Python-ListeNächster Artikel:Python-Liste