用结构化输出和功能调用增强LLM-人工智能-PHP中文网

首页

科技周边

人工智能

用结构化输出和功能调用增强LLM

Christopher Nolan

Apr 13, 2025 am 09:45 AM

介绍

假设您正在与知识渊博但有时缺乏具体/知情回答的朋友互动，或者当他/她/她/她面对复杂问题时不会流利地反应。我们在这里所做的类似于当前具有大语言模型的潜在客户。它们非常有帮助，尽管它们的结构化答案的质量和相关性可能令人满意或利基市场。

在本文中，我们将探讨未来的技术诸如函数呼叫和检索功能增强的生成（RAG）如何增强LLM。我们将讨论他们创造更可靠和有意义的对话体验的潜力。您将了解这些技术如何运作，它们的好处以及它们面临的挑战。我们的目标是为您掌握在不同情况下提高LLM性能的知识和技能。

本文基于Ayush Thakur在Datahack Summit 2024中对使用结构化输出和功能调用增强LLM的最新演讲。

学习成果

了解大语言模型的基本概念和局限性。
了解结构化输出和功能调用如何增强LLM的性能。
探索在改善LLMS中检索成绩（RAG）的原理和优势。
确定有效评估LLM的关键挑战和解决方案。
比较OpenAI和Llama模型之间的函数调用功能。

介绍
什么是LLM？
与LLM互动：提示
LLM应用程序与模型开发有何不同？
使用LLM的功能调用
功能调用：微调
llms的抹布（检索型生成一代）
评估LLM
LLM的产出的生成约束
降低温度的结构化输出
LLM的思想推理链
在Openai vs Llama上致电的功能
为您的申请找到LLM
结论
常见问题

什么是LLM？

大型语言模型（LLMS）是高级AI系统，旨在根据大型数据集理解和生成自然语言。诸如GPT-4和Llama之类的模型使用深度学习算法来处理和生成文本。它们是通用的，处理语言翻译和内容创建之类的任务。通过分析大量数据，LLMS学习语言模式并应用这些知识来产生自然的响应。他们可以从逻辑上预测文本和格式，从而使他们能够在不同字段上执行各种任务。

用结构化输出和功能调用增强LLM

LLM的局限性

现在让我们探索LLM的局限性。

准确性不一致：他们的结果有时不准确或不像预期的那样可靠，尤其是在处理复杂的情况时。
缺乏真正的理解：它们可能会产生可能听起来合理的文本，但实际上可能是错误的信息或由于缺乏洞察力而旋转。
培训数据限制：它们产生的输出受训练数据的限制，有时可能是偏见或含有差距。
静态知识库： LLM的静态知识库无法实时更新，从而使其对需要当前或动态信息的任务效率降低。

LLMS结构化输出的重要性

现在，我们将研究LLMS结构化输出的重要性。

增强的一致性：结构化输出提供了一种清晰而有条理的格式，从而提高了所提供信息的一致性和相关性。
提高了可用性：它们使信息易于解释和使用，尤其是在需要精确数据显示的应用程序中。
有组织的数据：结构化格式有助于逻辑地组织信息，这有益于生成报告，摘要或数据驱动的见解。
含糊不清：实施结构化的输出有助于降低歧义并提高生成的文本的整体质量。

与LLM互动：提示

提示大型语言模型（LLMS）涉及用几个关键组件制定提示：

说明：有关LLM应该做什么的清晰指令。
上下文：背景信息或代币之前，以告知响应。
输入数据：LLM需要处理的主要内容或查询。
输出指示器：指定所需的格式或响应类型。

用结构化输出和功能调用增强LLM

例如，要对情感进行分类，您提供了一个文本，例如“我认为食物还可以”，并要求LLM将其归类为中性，负面或积极的情感。

实际上，有多种提示的方法：

输入输出：直接输入数据并接收输出。
思想链（COT） ：鼓励LLM通过一系列步骤进行推理，以达到输出。
与COT（COT-SC）的自洽性：使用多个推理路径和聚合结果通过多数投票提高准确性。

用结构化输出和功能调用增强LLM

这些方法有助于完善LLM的响应，并确保输出更准确和可靠。

LLM应用程序与模型开发有何不同？

现在让我们查看下表，以了解LLM应用程序与模型开发的不同。

	模型开发	LLM应用程序
型号	建筑节省了重量和偏见	功能，API和配置的组成
数据集	巨大，经常被标记	人类产生，通常没有标记
实验	昂贵的长期优化	廉价的高频相互作用
追踪	指标：损失，准确性，激活	活动：完成，反馈，代码
评估	客观和计划	主观并需要人类的投入

使用LLM的功能调用

使用LLM的函数调用涉及使大型语言模型（LLMS）作为其响应生成过程的一部分执行预定义的功能或代码片段。此功能使LLM可以执行超出标准文本生成以外的特定操作或计算。通过集成函数调用，LLM可以与外部系统进行交互，检索实时数据或执行复杂操作，从而在各种应用程序中扩展其效用和有效性。

用结构化输出和功能调用增强LLM

功能呼叫的好处

增强的交互性：函数调用使LLMS能够与外部系统动态交互，从而促进实时数据检索和处理。这对于需要最新信息的应用程序，例如实时数据查询或基于当前条件的个性化响应特别有用。
增加的多功能性：通过执行功能，LLM可以处理更广泛的任务，从执行计算到访问和操纵数据库。这种多功能性增强了模型满足各种用户需求并提供更全面的解决方案的能力。
提高精度：功能调用允许LLMS执行特定的动作，以提高其输出的准确性。例如，他们可以使用外部功能来验证或丰富他们生成的信息，从而导致更精确和可靠的响应。
简化过程：将功能呼叫集成到LLM可以通过自动化重复任务并减少手动干预的需求来简化复杂过程。这种自动化可以导致更有效的工作流程和更快的响应时间。

使用当前LLM的函数调用的局限性

有限的集成功能：当前的LLM可能会在与不同的外部系统或功能无缝集成时面临挑战。这种限制可以限制他们与各种数据源交互或有效执行复杂操作的能力。
安全性和隐私问题：功能调用可以引入安全性和隐私风险，尤其是当LLMS与敏感或个人数据互动时。确保强大的保障措施和安全互动对于减轻潜在脆弱性至关重要。
执行约束： LLMS执行功能可能受到资源限制，处理时间或兼容性问题等因素的约束。这些约束可能会影响功能通话功能的性能和可靠性。
管理中的复杂性：管理和维护功能呼叫功能可以增加LLM的部署和操作的复杂性。这包括处理错误，确保与各种功能的兼容性以及管理更新或更改所调用的功能。

功能通话遇到pydantic

Pydantic对象简化了定义和转换方案以进行函数调用的过程，提供了几个好处：

自动架构转换：轻松地将Pydantic对象转换为准备LLM的模式。
增强的代码质量：Pydantic Hands类型检查，验证和控制流，确保清洁可靠的代码。
强大的错误处理：用于管理错误和异常的内置机制。
框架集成：诸如教练，Marvin，Langchain和Llamaindex之类的工具利用Pydantic的功能来实现结构化输出。

功能调用：微调

增强呼吁利基任务的功能涉及对小型LLM进行微调以满足特定的数据策划需求。通过利用特殊令牌和Lora微调等技术，您可以优化功能执行并改善模型的专用应用程序的性能。

数据策划：专注于有效功能调用的精确数据管理。

单转强制调用：实现直接执行的直接执行。
并行调用：利用并发函数呼叫以提高效率。
嵌套调用：处理嵌套函数执行的复杂交互。
多转聊：使用顺序函数调用管理扩展对话。

特殊令牌：使用自定义令牌标记功能呼叫的开始和结束，以更好地集成。

模型培训：从基于教学的模型开始，该模型接受了高质量数据的基础效果。

Lora微调：采用Lora微调以可管理和有针对性的方式增强模型性能。

用结构化输出和功能调用增强LLM

这显示了在两周内绘制NVIDIA（NVDA）和Apple（AAPL）股票价格的请求，然后进行功能呼叫获取股票数据。

用结构化输出和功能调用增强LLM

llms的抹布（检索型生成一代）

检索增强生成（RAG）结合了检索技术与生成方法，以提高大语模型（LLMS）的性能。 RAG通过将检索系统集成在生成模型中，从而提高了产出的相关性和质量。这种方法可确保生成的响应在上下文上更丰富，实际上是准确的。通过合并外部知识，抹布可以解决纯粹生成模型的某些局限性，为需要准确性和最新信息的任务提供了更可靠和知情的输出。它弥合了发电和检索之间的差距，从而提高了整体模型效率。

抹布的工作原理

关键组件包括：

文档加载程序：负责加载文档并提取文本和元数据进行处理。
块策略：定义大型文本被分为较小的，易于管理的作品（块），以嵌入。
嵌入模型：将这些块转换为数值向量，以进行有效的比较和检索。
检索器：根据查询搜索最相关的块，确定它们在响应生成方面的良好或准确性。
节点解析器和后处理：处理和阈值，确保向前传递高质量的块。
响应合成器：从检索到的块中生成连贯的响应，通常会带有多转弯或顺序LLM调用。
评估：系统检查响应中的幻觉的准确性，事实并降低了幻觉，以确保它反映实际数据。

该图像表示RAG系统如何结合检索和生成以提供准确的数据驱动答案。

用结构化输出和功能调用增强LLM

检索组件： RAG框架从检索过程开始，该过程从预定义的知识库或搜索引擎中获取相关文档或数据。此步骤涉及使用输入查询或上下文查询数据库以识别最相关的信息。
上下文集成：一旦检索了相关文档，它们就会用于为生成模型提供上下文。检索到的信息已集成到输入提示中，帮助LLM生成了由现实世界数据和相关内容告知的响应。
生成组件：生成模型处理丰富的输入，并结合了检索到的信息以产生响应。此响应从其他上下文中受益，从而导致更准确和上下文适当的输出。
改进：在某些实施中，可以通过进一步的处理或重新评估来完善生成的输出。此步骤确保最终响应与检索到的信息并符合质量标准。

与LLM一起使用抹布的好处

提高准确性：通过合并外部知识，抹布可以增强生成的输出的事实准确性。检索组件有助于提供最新和相关的信息，从而降低产生不正确或过时的响应的风险。
增强的上下文相关性： RAG允许LLMS通过利用从外部来源检索到的特定信息来产生与上下文相关的响应。这导致输出与用户的查询或上下文更好。
知识覆盖范围的增加：使用抹布，LLM可以访问超出其培训数据的更广泛的知识。这种扩展的覆盖范围有助于解决有关该模型预先训练的知识中可能没有得到充分代表的利基或专业主题的疑问。
更好地处理长尾查询：抹布对于处理长尾查询或罕见主题特别有效。通过检索相关文件，LLM即使对于不常见或高度特定的查询也可以产生信息的响应。
增强的用户体验：检索和生成的集成提供了更强大，更有用的响应，从而改善了整体用户体验。用户收到的答案不仅连贯，而且基于相关和最新信息。

评估LLM

评估大语言模型（LLMS）是确保其在各种任务中的有效性，可靠性和适用性的关键方面。适当的评估有助于确定优势和劣势，指导改进，并确保LLM符合不同应用的所需标准。

LLM应用程序评估的重要性

确保准确性和可靠性：绩效评估有助于理解LLM始终如一地完成文本生成，摘要或问答等任务。虽然我赞成在课堂上推动更全面的方法，但特别是在这种方式中特别依赖于医学或法律等领域的细节，这是非常有价值的。
指南改进：通过评估，开发人员可以确定LLM可能不足的特定领域。该反馈对于完善模型性能，调整训练数据或修改算法以提高整体效率至关重要。
针对基准测试的衡量绩效：评估LLMS针对已建立的基准测试，可以与其他模型和以前的版本进行比较。这种基准测试过程有助于我们了解模型的性能并确定改进领域。
确保道德和安全使用：它有一部分在确定LLM尊重道德原则和有关安全的标准的程度。它有助于确定偏见，不需要的内容以及可能导致对技术负责使用的任何其他因素受到损害。
支持现实世界的应用程序：出于这个原因，需要进行适当而彻底的评估才能了解LLM在实践中的工作方式。这涉及评估他们在解决各种任务，在不同情况下运行的过程中的表现，并在现实世界中产生宝贵的结果。

评估LLM的挑战

评估指标的主观性：许多评估指标，例如人类对相关性或连贯性的判断，都可以是主观的。这种主观性使得始终如一地评估模型性能并可能导致结果可变性。
难以衡量细微的理解：评估LLM理解复杂或细微的查询的能力本质上是困难的。当前的指标可能无法完全捕获高质量产出所需的理解深度，从而导致不完整的评估。
可伸缩性问题：随着这些结构扩展并变得更加复杂，评估LLM的越来越昂贵。同样重要的是要注意，全面的评估很耗时，需要大量的计算能力，以阻碍测试过程。
偏见和公平问题：评估LLM的偏见和公平性并不容易，因为偏见可以采取不同的形状和形式。为了确保在不同的人口统计和情况下的准确性保持一致，严格且精致的评估方法至关重要。
语言的动态性质：语言正在不断发展，构成准确或相关信息的内容可能会随着时间而变化。鉴于模型的动态性质，评估者不仅必须评估LLMS的当前表现，而且还必须评估其对不断发展的语言趋势的适应性。

LLM的产出的生成约束

受限的生成涉及指导LLM以产生符合特定约束或规则的输出。当需要精确和遵守特定格式时，这种方法至关重要。例如，在法律文档或正式报告等应用程序中，生成的文本遵循严格的指南和结构至关重要。

您可以通过预先定义输出模板，设置内容边界或使用及时工程来指导LLM的响应来实现约束生成。通过应用这些限制，开发人员可以确保LLM的产出不仅相关，而且还符合所需的标准，从而减少了无关紧要或非主题响应的可能性。

降低温度的结构化输出

LLMS中的温度参数控制生成的文本中的随机性水平。降低温度会导致更可预测和结构化的输出。当将温度设置为较低的值（例如0.1至0.3）时，模型的响应产生变得更加确定性，有利于更高的概率单词和短语。这导致输出更相干，并与预期格式保持一致。

对于一致性和精度至关重要的应用，例如数据摘要或技术文档，降低温度可确保响应变化较小且结构更大。相反，更高的温度引入了更多的可变性和创造力，这在需要严格遵守格式和清晰度的上下文中可能不太理想。

LLM的思想推理链

思想推理链是一种鼓励LLM通过遵循类似人类推理过程的步骤序列来产生输出的技术。该方法涉及将复杂的问题分解为较小，可管理的组件，并阐明每个步骤背后的思考过程。

通过采用思想推理链，LLMS可以产生更全面和良好的响应，这对于涉及解决问题或详细说明的任务特别有用。这种方法不仅可以提高生成的文本的清晰度，而且通过提供模型推理过程的透明视图来帮助验证响应的准确性。

在Openai vs Llama上致电的功能

函数调用功能在OpenAI的模型和Meta的Llama模型之间有所不同。 OpenAI的模型（例如GPT-4）通过其API提供高级功能调用功能，从而与外部功能或服务集成。此功能使模型能够执行仅仅文本生成以外的任务，例如执行命令或查询数据库。

另一方面，来自Meta的Llama模型具有自己的一套功能调用机制，在实现和范围上可能有所不同。尽管两种类型的模型都支持调用功能，但其集成，性能和功能的细节可能会有所不同。了解这些差异对于为需要与外部系统或基于专门功能的操作进行复杂相互作用的应用程序选择适当的模型至关重要。

为您的申请找到LLM

为您的应用程序选择正确的大型语言模型（LLM）需要评估其功能，可伸缩性以及它如何满足您的特定数据和集成需求。

最好在不同系列中参考各种大型语言模型（LLM）的性能基准，例如Baichuan，Chatglm，DeepSeek和InternLM2。这里。根据上下文长度和针数评估其性能。这有助于了解哪些LLM可以选择某些任务。

用结构化输出和功能调用增强LLM

为您的应用选择正确的大型语言模型（LLM）涉及评估模型功能，数据处理要求和集成潜力等因素。考虑诸如模型的大小，微调选项以及对专业功能的支持之类的方面。将这些属性匹配到应用程序的需求将有助于您选择一个LLM，该LLM提供最佳性能并与您的特定用例保持一致。

LMSYS Chatbot Arena排行榜是一个通过人类成对比较来对大型语言模型（LLM）进行排名的众包平台。它使用Bradley-Terry模型来评估各种类别的绩效，以基于投票的方式显示模型排名。

用结构化输出和功能调用增强LLM

结论

总而言之，LLM正在随着功能调用和检索功能增强发电（RAG）等进步而发展。这些通过添加结构化输出和实时数据检索来提高它们的能力。尽管LLM具有很大的潜力，但它们在准确性和实时更新方面的局限性突出了进一步完善的需求。诸如受限生成，降低温度和思想推理链之类的技术有助于提高其产出的可靠性和相关性。这些进步旨在使LLM在各种应用中更有效和准确。

了解OpenAI和Llama模型中的函数之间的差异有助于为特定任务选择合适的工具。随着LLM技术的发展，应对这些挑战并使用这些技术将是提高其在不同领域的性能的关键。利用这些区别将优化它们在各种应用中的有效性。