译者 | 李睿
审校 | 孙淑娟
什么是文本分类?
文本分类是将文本分类为一个或多个不同类别以组织、构造和过滤成任何参数的过程。例如,文本分类用于法律文件、医学研究和文件中,或者简单地用于产品评论。数据比以往任何时候都更重要;很多企业花费巨资试图获取尽可能多的洞察力。
随着文本/文档数据比其他数据类型丰富得多,使用新方法势在必行。由于数据本质上是非结构化的,并且极其丰富,因此以易于理解的方式组织数据以理解它可以显著地提高其价值。使用文本分类和机器学习可以更快、更经济高效地自动构造相关文本。
以下将定义文本分类、其工作原理、一些最知名的算法,并提供可能有助于开始文本分类之旅的数据集。
为什么使用机器学习文本分类?
- 规模:人工数据输入、分析和组织既乏味又缓慢。机器学习允许进行自动分析,无论数据集的规模有多大。
- 一致性:人为错误是由于人员疲劳和对数据集中的材料不敏感而发生的。由于算法的无偏性和一致性,机器学习提高了可扩展性并显著提高了准确性。
- 速度:有时可能需要快速访问和组织数据。机器学习算法可以解析数据,以易于理解的方式传递信息。
6个通用步骤
一些基本方法可以在一定程度上对不同的文本文档进行分类,但最常用的方法采用机器学习。文本分类模型在部署之前需要经历六个基本步骤。
1.提供高质量的数据集
数据集是原始数据块,用作模型的数据源。在文本分类的情况下,使用监督机器学习算法,为机器学习模型提供标记数据。标记数据是为算法预定义的数据,并附有信息标签。
2.过滤和处理数据
由于机器学习模型只能理解数值,因此需要对提供的文本进行标记化和文字嵌入,以使模型能够正确识别数据。
标记化是将文本文档拆分成更小的部分(称为标记)的过程。标记可以表示为整个单词、子单词或单个字符。例如,可以这样更智能地标记工作:
- 标记词:Smarter
- 标记子词:Smart-er
- 标记字符:S-m-a-r-t-e-r
为什么标记化很重要?因为文本分类模型只能在基于标记的级别上处理数据,不能理解和处理完整的句子。模型需要对给定的原始数据集进行进一步处理才能轻松消化给定的数据。删除不必要的功能,过滤掉空值和无限值等等。重组整个数据集将有助于防止在训练阶段出现任何偏差。
3.将数据集拆分为训练和测试数据集
希望在保留20%的数据集的同时,在80%的数据集上训练数据,以测试算法的准确性。
4.训练算法
通过使用训练数据集运行模型,该算法可以通过识别隐藏的模式和见解将提供的文本分类为不同类别。
5.测试和检查模型的性能
接下来,使用步骤3中提到的测试数据集测试模型的完整性。测试数据集将被取消标记,以根据实际结果测试模型的准确性。为了准确测试模型,测试数据集必须包含新的测试用例(与以前的训练数据集不同的数据),以避免过度拟合模型。
6.调整模型
通过调整模型的不同超参数来调整机器学习模型,而不会过度拟合或产生高方差。超参数是一个参数,其值控制模型的学习过程。现在可以部署了。
文本分类是如何工作的?
单词嵌入
在以上提到的过滤过程中,机器和深度学习算法只能理解数值,迫使开发人员对数据集执行一些单词嵌入技术。单词嵌入是将单词表示为实值向量的过程,实值向量可以对给定单词的含义进行编码。
- Word2Vec:这是谷歌公司开发的一种无监督单词嵌入方法。它利用神经网络从大型文本数据集中学习。顾名思义,Word2Vec方法将每个单词转换为给定的向量。
- GloVe:也称为全局向量,是一种无监督机器学习模型,用于获取单词的向量表示。与Word2Vec方法类似,GloVe算法将单词映射到有意义的空间中,其中单词之间的距离与语义相似度有关。
- TF-IDF:TF-IDF是词频-逆文本频率的缩写,它是一种单词嵌入算法,用于评估单词在给定文档中的重要性。TF-IDF为每个单词分配一个给定的分数,以表示其在一组文档中的重要性。
文本分类算法
以下是三种最著名和最有效的文本分类算法。需要记住,每种方法中都嵌入了进一步的定义算法。
1.线性支持向量机
线性支持向量机算法被认为是目前最好的文本分类算法之一,它根据给定的特征绘制给定的数据点,然后绘制一条最佳拟合线,将数据拆分并分类为不同的类别。
2.逻辑回归
逻辑回归是回归的一个子类,主要关注分类问题。它使用决策边界、回归和距离来评估和分类数据集。
3.朴素贝叶斯
朴素贝叶斯算法根据对象提供的特征对不同的对象进行分类。然后绘制组边界以推断这些组分类以进一步解决和分类。
设置文本分类时,应避免什么问题
1.过度拥挤的训练数据
为算法提供低质量数据将导致糟糕的未来预测。对于机器学习从业者来说,一个常见的问题是,向训练模型提供的数据集过多,并且包括不必要的特征。过多地使用不相关的数据会导致模型性能的下降。而在选择和组织数据集时,越少越好。
错误的训练与测试数据的比率会极大地影响模型的性能,并影响数据的洗牌和过滤。精确的数据点不会被其他不需要的因素所干扰,训练模型将更有效地执行。
在训练模型时,选择符合模型要求的数据集,过滤不必要的值,洗牌数据集,并测试最终模型的准确性。更简单的算法需要更少的计算时间和资源,而最好的模型是可以解决复杂问题的最简单的模型。
2.过拟合和欠拟合
在训练达到峰值时,模型的准确性随着训练的继续逐渐降低。这称为过拟合;由于训练持续时间过长,模型开始学习意想不到的模式。在训练集上实现高精度时要小心,因为主要目标是开发其准确性植根于测试集的模型(模型以前没有见过的数据)。
另一方面,欠拟合是指训练模型仍有改进的空间,尚未达到其最大潜力。训练不佳的模型源于训练的时间长度或对数据集过度正则化。这体现了拥有简洁和精确数据的意义。
在训练模型时找到最佳位置至关重要。将数据集拆分为80/20是一个很好的开始,但调整参数可能是特定模型需要以最佳方式执行的操作。
3.文本格式不正确
尽管在本文中没有详细提及,但针对文本分类问题使用正确的文本格式将获得更好的结果。一些表示文本数据的方法包括GloVe、Word2Vec和嵌入模型。
使用正确的文本格式将改善模型读取和解释数据集的方式,进而帮助它理解模式。
文本分类应用程序
- 过滤垃圾邮件:通过搜索某些关键字,可以将电子邮件分类为有用邮件或垃圾邮件。
- 文本分类:通过使用文本分类,应用程序可以通过对相关文本(如项目名称和描述等)进行分类,将不同的项目(文章和书籍等)分类为不同的类别。使用这些技术可以改善体验,因为它使用户更容易在数据库中导航。
- 识别仇恨言论:某些社交媒体公司使用文本分类来检测和禁止带有冒犯行为的评论或帖子。
- 营销和广告:企业可以通过了解用户对某些产品的反应来做出特定的改变来满足他们的客户。它还可以根据用户对类似产品的评论推荐某些产品。文本分类算法可以与推荐系统结合使用,这是许多在线网站用来获得重复业务的另一种深度学习算法。
流行的文本分类数据集
拥有大量标记和即用型数据集,可以随时搜索符合模型要求的完美数据集。
虽然在决定使用哪一个时可能会遇到一些问题,但以下将推荐一些可供公众使用的最知名的数据集。
- IMDB Dataset
- Amazon Reviews Dataset
- Yelp Reviews Dataset
- SMS Spam Collection
- Opin Rank Review Dataset
- Twitter US Airline Sentiment Dataset
- Hate Speech and Offensive Language Dataset
- Clickbait Dataset
Kaggle等网站包含涵盖所有主题的各种数据集。可以尝试在上述几个数据集上运行模型进行练习。
机器学习中的文本分类
随着机器学习在过去十年中产生了巨大的影响,企业正在尝试一切可能的方法来利用机器学习实现流程自动化。评论、帖子、文章、期刊和文档在文本中都具有无价的价值。而通过以多种创造性方式使用文本分类来提取用户见解和模式,企业可以做出有数据支持的决策;专业人士可以比以往更快地获取和学习有价值的信息。
原文标题:What Is Text Classification?,作者:Kevin Vu
以上是什么是文本分类?的详细内容。更多信息请关注PHP中文网其他相关文章!

特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的

译者 | 朱先忠审校 | 孙淑娟在我之前的博客中,我们已经了解了如何使用因果树来评估政策的异质处理效应。如果你还没有阅读过,我建议你在阅读本文前先读一遍,因为我们在本文中认为你已经了解了此文中的部分与本文相关的内容。为什么是异质处理效应(HTE:heterogenous treatment effects)呢?首先,对异质处理效应的估计允许我们根据它们的预期结果(疾病、公司收入、客户满意度等)选择提供处理(药物、广告、产品等)的用户(患者、用户、客户等)。换句话说,估计HTE有助于我

译者 | 朱先忠审校 | 孙淑娟引言模型超参数(或模型设置)的优化可能是训练机器学习算法中最重要的一步,因为它可以找到最小化模型损失函数的最佳参数。这一步对于构建不易过拟合的泛化模型也是必不可少的。优化模型超参数的最著名技术是穷举网格搜索和随机网格搜索。在第一种方法中,搜索空间被定义为跨越每个模型超参数的域的网格。通过在网格的每个点上训练模型来获得最优超参数。尽管网格搜索非常容易实现,但它在计算上变得昂贵,尤其是当要优化的变量数量很大时。另一方面,随机网格搜索是一种更快的优化方法,可以提供更好的

导读:因果推断是数据科学的一个重要分支,在互联网和工业界的产品迭代、算法和激励策略的评估中都扮演者重要的角色,结合数据、实验或者统计计量模型来计算新的改变带来的收益,是决策制定的基础。然而,因果推断并不是一件简单的事情。首先,在日常生活中,人们常常把相关和因果混为一谈。相关往往代表着两个变量具有同时增长或者降低的趋势,但是因果意味着我们想要知道对一个变量施加改变的时候会发生什么样的结果,或者说我们期望得到反事实的结果,如果过去做了不一样的动作,未来是否会发生改变?然而难点在于,反事实的数据往往是

SimCLR(Simple Framework for Contrastive Learning of Representations)是一种学习图像表示的自监督技术。 与传统的监督学习方法不同,SimCLR 不依赖标记数据来学习有用的表示。 它利用对比学习框架来学习一组有用的特征,这些特征可以从未标记的图像中捕获高级语义信息。SimCLR 已被证明在各种图像分类基准上优于最先进的无监督学习方法。 并且它学习到的表示可以很容易地转移到下游任务,例如对象检测、语义分割和小样本学习,只需在较小的标记

一、盒马供应链介绍1、盒马商业模式盒马是一个技术创新的公司,更是一个消费驱动的公司,回归消费者价值:买的到、买的好、买的方便、买的放心、买的开心。盒马包含盒马鲜生、X 会员店、盒马超云、盒马邻里等多种业务模式,其中最核心的商业模式是线上线下一体化,最快 30 分钟到家的 O2O(即盒马鲜生)模式。2、盒马经营品类介绍盒马精选全球品质商品,追求极致新鲜;结合品类特点和消费者购物体验预期,为不同品类选择最为高效的经营模式。盒马生鲜的销售占比达 60%~70%,是最核心的品类,该品类的特点是用户预期时

译者 | 李睿 审校 | 孙淑娟随着机器学习成为人们每天都在使用的很多应用程序的一部分,人们越来越关注如何识别和解决机器学习模型的安全和隐私方面的威胁。 然而,不同机器学习范式面临的安全威胁各不相同,机器学习安全的某些领域仍未得到充分研究。尤其是强化学习算法的安全性近年来并未受到太多关注。 加拿大的麦吉尔大学、机器学习实验室(MILA)和滑铁卢大学的研究人员开展了一项新研究,主要侧重于深度强化学习算法的隐私威胁。研究人员提出了一个框架,用于测试强化学习模型对成员推理攻击的脆弱性。 研究

1.线性回归线性回归(Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量(x 值)和数值结果(y 值)。然后就可以用这条线来预测未来的值!这种算法最常用的技术是最小二乘法(Least of squares)。这个方法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。例如


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1
好用且免费的代码编辑器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。