译者 | 李睿
审校 | 孙淑娟
文本分类是将文本分类为一个或多个不同类别以组织、构造和过滤成任何参数的过程。例如,文本分类用于法律文件、医学研究和文件中,或者简单地用于产品评论。数据比以往任何时候都更重要;很多企业花费巨资试图获取尽可能多的洞察力。
随着文本/文档数据比其他数据类型丰富得多,使用新方法势在必行。由于数据本质上是非结构化的,并且极其丰富,因此以易于理解的方式组织数据以理解它可以显著地提高其价值。使用文本分类和机器学习可以更快、更经济高效地自动构造相关文本。
以下将定义文本分类、其工作原理、一些最知名的算法,并提供可能有助于开始文本分类之旅的数据集。
一些基本方法可以在一定程度上对不同的文本文档进行分类,但最常用的方法采用机器学习。文本分类模型在部署之前需要经历六个基本步骤。
数据集是原始数据块,用作模型的数据源。在文本分类的情况下,使用监督机器学习算法,为机器学习模型提供标记数据。标记数据是为算法预定义的数据,并附有信息标签。
由于机器学习模型只能理解数值,因此需要对提供的文本进行标记化和文字嵌入,以使模型能够正确识别数据。
标记化是将文本文档拆分成更小的部分(称为标记)的过程。标记可以表示为整个单词、子单词或单个字符。例如,可以这样更智能地标记工作:
为什么标记化很重要?因为文本分类模型只能在基于标记的级别上处理数据,不能理解和处理完整的句子。模型需要对给定的原始数据集进行进一步处理才能轻松消化给定的数据。删除不必要的功能,过滤掉空值和无限值等等。重组整个数据集将有助于防止在训练阶段出现任何偏差。
希望在保留20%的数据集的同时,在80%的数据集上训练数据,以测试算法的准确性。
通过使用训练数据集运行模型,该算法可以通过识别隐藏的模式和见解将提供的文本分类为不同类别。
接下来,使用步骤3中提到的测试数据集测试模型的完整性。测试数据集将被取消标记,以根据实际结果测试模型的准确性。为了准确测试模型,测试数据集必须包含新的测试用例(与以前的训练数据集不同的数据),以避免过度拟合模型。
通过调整模型的不同超参数来调整机器学习模型,而不会过度拟合或产生高方差。超参数是一个参数,其值控制模型的学习过程。现在可以部署了。
在以上提到的过滤过程中,机器和深度学习算法只能理解数值,迫使开发人员对数据集执行一些单词嵌入技术。单词嵌入是将单词表示为实值向量的过程,实值向量可以对给定单词的含义进行编码。
以下是三种最著名和最有效的文本分类算法。需要记住,每种方法中都嵌入了进一步的定义算法。
线性支持向量机算法被认为是目前最好的文本分类算法之一,它根据给定的特征绘制给定的数据点,然后绘制一条最佳拟合线,将数据拆分并分类为不同的类别。
逻辑回归是回归的一个子类,主要关注分类问题。它使用决策边界、回归和距离来评估和分类数据集。
朴素贝叶斯算法根据对象提供的特征对不同的对象进行分类。然后绘制组边界以推断这些组分类以进一步解决和分类。
为算法提供低质量数据将导致糟糕的未来预测。对于机器学习从业者来说,一个常见的问题是,向训练模型提供的数据集过多,并且包括不必要的特征。过多地使用不相关的数据会导致模型性能的下降。而在选择和组织数据集时,越少越好。
错误的训练与测试数据的比率会极大地影响模型的性能,并影响数据的洗牌和过滤。精确的数据点不会被其他不需要的因素所干扰,训练模型将更有效地执行。
在训练模型时,选择符合模型要求的数据集,过滤不必要的值,洗牌数据集,并测试最终模型的准确性。更简单的算法需要更少的计算时间和资源,而最好的模型是可以解决复杂问题的最简单的模型。
在训练达到峰值时,模型的准确性随着训练的继续逐渐降低。这称为过拟合;由于训练持续时间过长,模型开始学习意想不到的模式。在训练集上实现高精度时要小心,因为主要目标是开发其准确性植根于测试集的模型(模型以前没有见过的数据)。
另一方面,欠拟合是指训练模型仍有改进的空间,尚未达到其最大潜力。训练不佳的模型源于训练的时间长度或对数据集过度正则化。这体现了拥有简洁和精确数据的意义。
在训练模型时找到最佳位置至关重要。将数据集拆分为80/20是一个很好的开始,但调整参数可能是特定模型需要以最佳方式执行的操作。
尽管在本文中没有详细提及,但针对文本分类问题使用正确的文本格式将获得更好的结果。一些表示文本数据的方法包括GloVe、Word2Vec和嵌入模型。
使用正确的文本格式将改善模型读取和解释数据集的方式,进而帮助它理解模式。
拥有大量标记和即用型数据集,可以随时搜索符合模型要求的完美数据集。
虽然在决定使用哪一个时可能会遇到一些问题,但以下将推荐一些可供公众使用的最知名的数据集。
Kaggle等网站包含涵盖所有主题的各种数据集。可以尝试在上述几个数据集上运行模型进行练习。
随着机器学习在过去十年中产生了巨大的影响,企业正在尝试一切可能的方法来利用机器学习实现流程自动化。评论、帖子、文章、期刊和文档在文本中都具有无价的价值。而通过以多种创造性方式使用文本分类来提取用户见解和模式,企业可以做出有数据支持的决策;专业人士可以比以往更快地获取和学习有价值的信息。
原文标题:What Is Text Classification?,作者:Kevin Vu
以上是什么是文本分类?的详细内容。更多信息请关注PHP中文网其他相关文章!