搜索
首页科技周边人工智能用Scikit-llm零射击和少量的文本分类

Zero-Shot and Few-Shot Text Classification with SCIKIT-LLM

在传统上,分析客户反馈和识别文本数据中的关键主题是一个费力的过程。 它涉及数据收集,手动标签以及专用模型的微调。 但是,零击文本分类提供了一种简化的方法,利用大型语言模型(LLMS)的力量绕开了对广泛模型培训的需求。本文探讨了如何使用SKLLM库(结合Scikit-Learn和LLMS)简化情感分析,并演示其在Kaggle妇女电子商务服装评论数据集中的应用。

键学习成果

本教程将涵盖:

常规的情感分析工作流程及其局限性。
    用LLMS零摄像的文本分类的原理和好处。
  • SKLLM库的简介及其与Scikit-Learn的集成。
  • 零摄像分类的实际应用在女性电子商务服装评论数据集中。
  • >现实世界中的零摄像分类的实践经验。
  • *本文是***
  • 数据科学blogathon的一部分。

目录的> 什么是零击文本分类?

>

为什么零射击如此高效?

>
    数据集概述
  • >逐步指南
  • 潜在的缺点
  • 少数文本分类
  • 经过思考的文本分类
  • 摘要
  • 常见问题
  • 什么是零击文本分类?
  • >
  • 分析在线零售商收到的大量客户评论对有效的情感分析和主题识别提出了重大挑战。 传统方法涉及:

收集和清洁审核数据。

>手动标记数千个样本(例如,“正”,“负”,“中性”)。 使用此标记的数据进行细微调整专用分类模型。

    这个过程是耗时的和资源密集的。零弹性文本分类提供了一个解决方案:直接使用LLMS无需自定义培训来对文本进行分类。 通过提供描述性标签(例如,“正面”,“负”,“中性”),该模型渗透了正确的类。
  • >
  • 为什么零射击如此高效?
  • >
  • 零拍的效率源于:
    • 消除微调:避免了像GPT-4这样的微调LLM的昂贵过程。 预先训练的LLM可直接使用,提供了立即的高质量分类。
    • >
    • >简单的标签改编:更改标签集(例如,从一般情感到更具体的情感)仅需要更新标签列表;不需要模型再培训。
    • >
    • >降低数据要求:与监督学习不同,零摄像分类只需要描述性标签,使其适用于具有有限或未标记数据的情况。
    • >
    • >>更快的部署:通过跳过数据注释和模型培训,部署大大加速了。>
    数据集概述

    >本教程中使用了Kaggle的女性电子商务服装评论数据集。

    [链接到数据集]

    密钥数据集特性:

    >包含成千上万的有关女装的客户评论。
      >
    • “评论文本”列包含主要文本数据。
    • 其他元数据(“标题”,“评级”,“推荐的IND”等)可用,但对于零摄影分类而不是必不可少。
    • >逐步指南

    >本节详细介绍了如何使用LLMS和SKLLM库进行零摄像分类执行情感分析和主题检测。

    >步骤1:安装和设置

    确保安装Python 3.7并安装SKLLM:

    >获得LLM提供商(例如OpenAI)的有效API密钥,并将其设置在您的环境中:

    pip install scikit-llm

    步骤2:导入库和加载数据

    from skllm.config import SKLLMConfig
    
    # Replace with your OpenAI API key
    SKLLMConfig.set_openai_key("your_openai_api_key")

    >步骤3:定义标签

    import pandas as pd
    from skllm.models.gpt.classification.zero_shot import ZeroShotGPTClassifier
    
    # Load dataset
    df = pd.read_csv("Womens Clothing E-Commerce Reviews.csv")
    
    # Handle missing review texts
    df = df.dropna(subset=["Review Text"]).reset_index(drop=True)
    X = df["Review Text"].tolist()
    用于情感分类,使用:

    。 可以根据需要自定义。

    >

    >步骤4:零射击分类["positive", "negative", "neutral"]

    实例化

    (使用

    或其他合适的模型):

    > ZeroShotGPTClassifier gpt-4o

    表示不需要培训数据;分类器以标签集初始化。
    clf = ZeroShotGPTClassifier(model="gpt-4o")
    clf.fit(None, ["positive", "negative", "neutral"])

    >步骤5:分类评论fit(None, labels)

    这显示了前五个评论及其预测的观点。

    结果比较
    predictions = clf.predict(X)
    
    for review_text, sentiment in zip(X[:5], predictions[:5]):
        print(f"Review: {review_text}")
        print(f"Predicted Sentiment: {sentiment}")
        print("-" * 50)

    传统的ML方法需要标签,模型培训,验证和连续更新。零拍摄可显着降低此开销,从而立即获得结果,而无需标记数据和易于标签的细化。

    潜在的缺点

    • 准确性波动:准确性可以根据文本的复杂性和模型解释特定域行话的能力而有所不同。
    • >
    • 成本注意事项:>使用强大的模型(例如GPT-4)会产生API成本。
    • >
    • 数据隐私:在将数据发送到外部API时,请确保符合数据隐私法规。
    • 少数文本分类
    几乎没有射击分类使用少数标记的示例来指导模型。 SKLLM估计器使用整个培训集来创建几个示例。 对于大型数据集,请考虑将数据分开并使用一个小的培训子集(例如,每个课程不超过10个示例),然后将示例放置为

    经过思考的文本分类

    pip install scikit-llm
    经过思考链分类产生了中间推理步骤,有可能提高准确性,但可以提高令牌使用和成本。

    与基线零射击方法相比,使用少量射击和链链方法进行实验可能会产生更好的结果。

    摘要

    SKLLM库为建立自定义情感分析管道提供了快速有效的替代方案。 零射击分类可以快速分析客户反馈,而无需手动标签或模型培训。 这对于迭代任务和标签扩展尤其有价值。
    from skllm.config import SKLLMConfig
    
    # Replace with your OpenAI API key
    SKLLMConfig.set_openai_key("your_openai_api_key")
    >

    >关键点

    零射击分类简化了无需手动标签或模型培训的情感分析。

    skllm将Scikit-learn与llms集成以进行有效的文本分类。

    像GPT-4这样的LLMS

    LLMS立即提供高质量的分类结果。
      零射击分类是快速,适应性的,并且需要最少的数据。>
    • 常见问题
    • Q1。在零射击,很少射击和经营链之间进行选择:
    • 零射击是快速原型制作和有限数据的理想选择;通过一个小标记的数据集,很少能提高准确性;经过思考链会提高性能,但增加了成本。
    Q2。几次示例的数量:

    建议每班最多10个示例;避免偏见的示例示例。

    Q3。对准确性的影响链的影响:不能保证提高准确性;有效性取决于任务的复杂性和迅速的清晰度。

    Q4。规模上的成本:成本取决于令牌使用,模型选择,及时长度和数据集大小。 经过思考链会增加由于更长的提示而增加的成本。

    >

    注意:>本文中使用的图像不归作者所有,并且随许可使用。>

以上是用Scikit-llm零射击和少量的文本分类的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
从摩擦到流:AI如何重塑法律工作从摩擦到流:AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技术革命正在获得动力,促使法律专业人员积极采用AI解决方案。 对于那些旨在保持竞争力的人来说,被动抵抗不再是可行的选择。 为什么技术采用至关重要? 法律专业人员

这就是AI对您的看法,对您的了解这就是AI对您的看法,对您的了解May 09, 2025 am 11:24 AM

许多人认为与AI的互动是匿名的,与人类交流形成了鲜明的对比。 但是,AI在每次聊天期间都会积极介绍用户。 每个单词的每个提示都经过分析和分类。让我们探索AI Revo的这一关键方面

建立蓬勃发展的AI-Ready企业文化的7个步骤建立蓬勃发展的AI-Ready企业文化的7个步骤May 09, 2025 am 11:23 AM

成功的人工智能战略,离不开强大的企业文化支撑。正如彼得·德鲁克所言,企业运作依赖于人,人工智能的成功也同样如此。 对于积极拥抱人工智能的组织而言,构建适应AI的企业文化至关重要,它甚至决定着AI战略的成败。 西蒙诺咨询公司(West Monroe)近期发布了构建蓬勃发展的AI友好型企业文化的实用指南,以下是一些关键要点: 1. 明确AI的成功模式: 首先,要对AI如何赋能业务有清晰的愿景。理想的AI运作文化,能够实现人与AI系统之间工作流程的自然融合。AI擅长某些任务,而人类则擅长创造力、判

Netflix New Scroll,Meta AI的游戏规则改变者,Neuralink价值85亿美元Netflix New Scroll,Meta AI的游戏规则改变者,Neuralink价值85亿美元May 09, 2025 am 11:22 AM

Meta升级AI助手应用,可穿戴式AI时代来临!这款旨在与ChatGPT竞争的应用,提供文本、语音交互、图像生成和网络搜索等标准AI功能,但现在首次增加了地理位置功能。这意味着Meta AI在回答你的问题时,知道你的位置和正在查看的内容。它利用你的兴趣、位置、个人资料和活动信息,提供最新的情境信息,这在以前是无法实现的。该应用还支持实时翻译,这彻底改变了Ray-Ban眼镜上的AI体验,使其实用性大大提升。 对外国电影征收关税是对媒体和文化的赤裸裸的权力行使。如果实施,这将加速向AI和虚拟制作的

今天采取这些步骤以保护自己免受AI网络犯罪的侵害今天采取这些步骤以保护自己免受AI网络犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在彻底改变网络犯罪领域,这迫使我们必须学习新的防御技巧。网络罪犯日益利用深度伪造和智能网络攻击等强大的人工智能技术进行欺诈和破坏,其规模前所未有。据报道,87%的全球企业在过去一年中都成为人工智能网络犯罪的目标。 那么,我们该如何避免成为这波智能犯罪的受害者呢?让我们探讨如何在个人和组织层面识别风险并采取防护措施。 网络罪犯如何利用人工智能 随着技术的进步,犯罪分子不断寻找新的方法来攻击个人、企业和政府。人工智能的广泛应用可能是最新的一个方面,但其潜在危害是前所未有的。 特别是,人工智

共生舞蹈:人工和自然感知的循环共生舞蹈:人工和自然感知的循环May 09, 2025 am 11:13 AM

最好将人工智能(AI)与人类智力(NI)之间的复杂关系理解为反馈循环。 人类创建AI,对人类活动产生的数据进行培训,以增强或复制人类能力。 这个AI

AI最大的秘密 - 创作者不了解,专家分裂AI最大的秘密 - 创作者不了解,专家分裂May 09, 2025 am 11:09 AM

Anthropic最近的声明强调了关于尖端AI模型缺乏了解,引发了专家之间的激烈辩论。 这是一个真正的技术危机,还是仅仅是通往更秘密的道路上的临时障碍

Sarvam AI的Bulbul-V2:印度最佳TTS模型Sarvam AI的Bulbul-V2:印度最佳TTS模型May 09, 2025 am 10:52 AM

印度是一个多元化的国家,具有丰富的语言,使整个地区的无缝沟通成为持续的挑战。但是,Sarvam的Bulbul-V2正在帮助弥合其高级文本到语音(TTS)T

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!