Langchain文本拆分器:优化LLM输入以提高效率和准确性
我们上一篇文章介绍了Langchain的文档加载程序。但是,LLM具有上下文窗口大小的限制(以代币测量)。超过此限制会截断数据,损害准确性并增加成本。解决方案?仅将相关数据发送到LLM,需要数据分割。输入Langchain的文本拆分器。
关键概念:
- 文本拆分器的关键作用:理解为什么有效的文本拆分对于优化LLM应用程序,平衡上下文窗口大小和成本至关重要。
- 多样化的文本拆分技术:探索各种方法,包括角色计数,代币计数,递归分裂以及针对HTML,代码和JSON结构量身定制的技术。
- Langchain文本分离器实施:学习实用应用,包括安装,文本分割的代码示例以及处理多种数据格式。
- 语义分裂以增强相关性:发现句子的嵌入和余弦相似性如何创造语义上连贯的块,从而最大程度地提高相关性。
目录:
- 什么是文本拆分器?
- 数据拆分方法
- 基于角色计数的分裂
- 递归分裂
- 基于令牌计数的分裂
- 处理HTML
- 特定于代码的分裂
- JSON数据处理
- 语义块
- 常见问题
什么是文本拆分器?
文本拆分器将大文本分为较小的,可管理的块,以改善LLM查询相关性。它们直接在原始文本或兰链文档对象上工作。多种方法适合不同的内容类型和用例。
数据拆分方法
Langchain文本拆分器对于有效的大型文档处理至关重要。它们可以提高性能,上下文理解,实现并行处理并促进更好的数据管理。让我们检查几种方法:
先决条件:使用pip install langchain_text_splitters
安装软件包
基于角色计数的分裂
此方法使用指定的分离器根据字符计数分配文本。
来自langchain_community.document_loader 来自langchain_text_splitter #加载数据(用PDF路径替换) loader = unscontralypdfloader('how-to-formulate-successful-business-strategy.pdf',mode ='single') data = loader.load() text_splitter = prinateTextSplitter(saparator =“ \ n”,chunk_size = 500,chunk_overlap = 0,is_separator_regex = false) texts = text_splitter.split_documents(数据) Len(文本)#输出:块数量
此示例将文本分为500个字符的块,使用newline字符作为分离器。
递归分裂
这是顺序使用多个分离器,直到块低于chunk_size
。对于句子级分裂有用。
来自langchain_text_splitter recursive_splitter = recursivecharactertextsplitter(saparators = [“ \ n \ n”,“ \ n”,r“(?>> 293) #...(其余代码保持相似)
基于令牌计数的分裂
LLM使用令牌;通过令牌计数分裂更准确。此示例使用o200k_base
编码(检查github链接中的型号/编码映射)。
从langchain_text_splitters导入tokentextsplitter text_splitter = tokentextsplitter(encoding_name ='o200k_base',chunk_size = 50,chunk_overlap = 0) texts = text_splitter.split_documents(数据) Len(文本)#输出:块数量
递归分裂也可以与令牌计数相结合。
对于纯文本,通常优选使用字符或令牌计数进行递归分裂。
处理HTML
对于HTML等结构化数据,分裂应尊重结构。此示例基于HTML标头拆分。
从langchain_text_splitters导入htmlheadertextsplitter headers_to_split_on = [(“ h1”,“ header 1”),(“ h2”,“ header 2”),(“ h3”,“ header 3”)] html_splitter = htmlheadertextsplitter(headers_to_split_on,return_each_element = true) html_header_splits = html_splitter.split_text_from_url('https://diataxis.fr/') len(html_header_splits)#输出:块数
HTMLSectionSplitter
允许根据其他部分进行分割。
特定于代码的分裂
编程语言具有独特的结构。此示例使用语法意识分配用于Python代码。
来自langchain_text_splitter #...(Python代码示例)... python_splitter = recursivecharactertextsplitter.from_language(language = language.python,chunk_size = 100,chunk_overlap = 0) python_docs = python_splitter.create_documents([Python_code])
JSON数据处理
嵌套的JSON对象可以在保留密钥关系时分开。
来自langchain_text_splitters导入recursivejsonsplitter #...(JSON数据示例)... splitter = recursivejsonsplitter(max_chunk_size = 200,min_chunk_size = 20) 块= splitter.split_text(json_data,convert_lists = true)
语义块
该方法使用句子嵌入和余弦与语义相关的句子的相似性。
来自langchain_experiment.text_splitter导入semanticchunker 来自langchain_openai.embeddings进口openaiembeddings#需要OpenAi API键 #...(使用openaiembeddings和semanticchunker的代码)...
结论
Langchain提供了各种文本分裂方法,每种方法都适用于不同的数据类型。选择正确的方法可以优化LLM输入,提高准确性并降低成本。
常见问题
(问答部分基本相同,并进行较小的措辞调整以清晰度和流动。)
以上是使用Langchain Text Splitters -Analytics Vidhya拆分数据的7种方法的详细内容。更多信息请关注PHP中文网其他相关文章!

轻松在家运行大型语言模型:LM Studio 使用指南 近年来,软件和硬件的进步使得在个人电脑上运行大型语言模型 (LLM) 成为可能。LM Studio 就是一个让这一过程变得轻松便捷的优秀工具。本文将深入探讨如何使用 LM Studio 在本地运行 LLM,涵盖关键步骤、潜在挑战以及在本地拥有 LLM 的优势。无论您是技术爱好者还是对最新 AI 技术感到好奇,本指南都将提供宝贵的见解和实用技巧。让我们开始吧! 概述 了解在本地运行 LLM 的基本要求。 在您的电脑上设置 LM Studi

盖伊·佩里(Guy Peri)是麦考密克(McCormick)的首席信息和数字官。尽管他的角色仅七个月,但Peri正在迅速促进公司数字能力的全面转变。他的职业生涯专注于数据和分析信息

介绍 人工智能(AI)不仅要理解单词,而且要理解情感,从而以人的触感做出反应。 这种复杂的互动对于AI和自然语言处理的快速前进的领域至关重要。 Th

介绍 在当今以数据为中心的世界中,利用先进的AI技术对于寻求竞争优势和提高效率的企业至关重要。 一系列强大的工具使数据科学家,分析师和开发人员都能构建,Depl

本周的AI景观爆炸了,来自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行业巨头的开创性发行。 这些新型号有望提高功率,负担能力和可访问性,这在TR的进步中推动了

但是,该公司的Android应用不仅提供搜索功能,而且还充当AI助手,并充满了许多安全问题,可以将其用户暴露于数据盗用,帐户收购和恶意攻击中

您可以查看会议和贸易展览中正在发生的事情。您可以询问工程师在做什么,或咨询首席执行官。 您看的任何地方,事情都以惊人的速度发生变化。 工程师和非工程师 有什么区别

模拟火箭发射的火箭发射:综合指南 本文指导您使用强大的Python库Rocketpy模拟高功率火箭发射。 我们将介绍从定义火箭组件到分析模拟的所有内容


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器