各位专家,您好, 我们正在处理文本分类问题。我们有大约 80K 条记录,大约有 50 个类。数据极不平衡。它有 2 列,一列用于描述,另一列包含类。 到目前为止,我们已经尝试了以下模型和技术: 数据预处理: 一个。小写转换,删除数字文本,删除 标点符号 b.删除了不重要的单词和停用词 c.词形还原 TFIDF 转换 使用 SKLEARN 模型: 一个。线性SVC b.线性回归 c.逻辑回归 d.决策树 e.随机森林 使用 Huggingface 变形金刚: 一个。谷歌伯特 b.蒸馏伯特 SMOTE 采样 据观察,我们获得的最大准确度为 70%(随机森林和 Google Bert)。 准确性还有提升空间吗? 如果是,我们还可以使用哪些其他技术或模型来提高准确性?