搜索
首页web前端js教程使用 OpenAI JSON 模式和 JSON 模式简化数据提取

Simplifying Data Extraction with OpenAI JSON Mode and JSON Schemas

当我在 ChatGPT-3.5 发布后第一次尝试它时,我对它在各种应用程序中的潜力感到兴奋。然而,当我遇到一个主要障碍时,我的兴奋很快就消失了:尽管它返回的有价值的信息非常可读,但它并不是应用程序可以可靠摄取的形式。讽刺的是,法学硕士擅长从非结构化文本中提取信息,但只能以非结构化形式返回信息。尝试以编程方式从法学硕士中提取结果感觉就像是在一家令人难以置信的餐厅,提供最美味的食物,但没有任何器具 - 你可以看到它并闻到它,但你就是无法到达它。

我尝试了书中的每一个技巧来哄骗它给我一些类似的结构化数据。 “请用横线或新行分隔每个项目并跳过评论,”我恳求道。有时有效,有时无效。有时它会“有帮助地”对物品进行编号或重新排序,就像一个善意但有点困惑的助手。其他时候,它仍然会偷偷地加入一些评论,让人想起一个健谈的同事。我什至明确要求它只返回 JSON,但有时它会遗漏一个逗号——几乎就像是在进行被动攻击一样。最终,我放弃了,不情愿地回到了传统算法的不太令人兴奋但更可预测的范围。

幸运的是,几个月后,OpenAI 引入了 JSON 模式,该功能强制 LLM 返回有效的 JSON。我决定尝试此功能,发现它对于处理应用程序中的结果更加有效。以下是启用 JSON 模式的输出示例:

PROMPT:‍
Parse the following sentence into words and then return the results
as a list of the original word and the translation in English and
return the results in JSON.
-- sentence --
早安‍


RESULTS:
{
  "results": [
    {
      "original": "早安",
      "translation": "Good morning"
    }
  ]
}

这个输出无疑是一个进步。但是,虽然输出是有效的 JSON,但其结构可能会根据提示的内容而有所不同。更可预测的方法是指定所需的返回格式。实现这一目标的一种方法是提供一个示例 JSON 结构供 LLM 遵循。此方法涉及创建示例并编写代码来解析它。如果结构发生变化,两处都必须修改。

另一种方法是定义一个数据传输对象 (DTO) 来保存结果,并使用它来指示 LLM 并解析结果,从而避免同步问题。首先定义DTO,例如:‍

record Entries(List<entry> entries) {
    record Entry(String originalWord, String wordInEnglish, String pronunciation) {}
}
</entry>

现在DTO可以在提示指令中使用,也可以在解析代码中使用:

// Construct the prompt with the output schema.
var prompt = MessageFormat.format("""
   Parse the following sentence into English and return the results
   in JSON according to the following JSON schema.

   人工智慧將引領未來,以智慧之光照亮人類無限可能的前程。
   --- output json schema ---
   {0}
   """, jsonSchemaOf(Entries.class));
   var result = sendPrompt(prompt, Entries.class);

这是使用 Jackson JSON Schema 生成器的代码:

PROMPT:‍
Parse the following sentence into words and then return the results
as a list of the original word and the translation in English and
return the results in JSON.
-- sentence --
早安‍


RESULTS:
{
  "results": [
    {
      "original": "早安",
      "translation": "Good morning"
    }
  ]
}

注意:默认情况下,生成的模式将包含用于引用的 ID 字段,这可能会浪费令牌。请参阅存储库 OpenAI JSON 模式示例,了解删除这些未使用的 ID 的代码。

最后,这是使用 Azure OpenAI Java SDK 向 OpenAI 发送提示的代码:

record Entries(List<entry> entries) {
    record Entry(String originalWord, String wordInEnglish, String pronunciation) {}
}
</entry>

该解决方案在大多数情况下都有效。 LLM 可以有效地理解 JSON 模式,但需要注意的是:我见过有时会出错的情况。例如,如果字段是字符串且其名称是复数(例如“exampleValues”),则 LLM 有时会坚持返回字符串数组。

法学硕士可以产生显着的成果,有时超出普通人的能力。然而,有趣的是,至少目前,他们正在努力完成可靠地格式化生成的输出的更平凡的任务。

以上是使用 OpenAI JSON 模式和 JSON 模式简化数据提取的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
JavaScript数据类型:浏览器和nodejs之间是否有区别?JavaScript数据类型:浏览器和nodejs之间是否有区别?May 14, 2025 am 12:15 AM

JavaScript核心数据类型在浏览器和Node.js中一致,但处理方式和额外类型有所不同。1)全局对象在浏览器中为window,在Node.js中为global。2)Node.js独有Buffer对象,用于处理二进制数据。3)性能和时间处理在两者间也有差异,需根据环境调整代码。

JavaScript评论:使用//和 / * * / * / * /JavaScript评论:使用//和 / * * / * / * /May 13, 2025 pm 03:49 PM

JavaScriptusestwotypesofcomments:single-line(//)andmulti-line(//).1)Use//forquicknotesorsingle-lineexplanations.2)Use//forlongerexplanationsorcommentingoutblocksofcode.Commentsshouldexplainthe'why',notthe'what',andbeplacedabovetherelevantcodeforclari

Python vs. JavaScript:开发人员的比较分析Python vs. JavaScript:开发人员的比较分析May 09, 2025 am 12:22 AM

Python和JavaScript的主要区别在于类型系统和应用场景。1.Python使用动态类型,适合科学计算和数据分析。2.JavaScript采用弱类型,广泛用于前端和全栈开发。两者在异步编程和性能优化上各有优势,选择时应根据项目需求决定。

Python vs. JavaScript:选择合适的工具Python vs. JavaScript:选择合适的工具May 08, 2025 am 12:10 AM

选择Python还是JavaScript取决于项目类型:1)数据科学和自动化任务选择Python;2)前端和全栈开发选择JavaScript。Python因其在数据处理和自动化方面的强大库而备受青睐,而JavaScript则因其在网页交互和全栈开发中的优势而不可或缺。

Python和JavaScript:了解每个的优势Python和JavaScript:了解每个的优势May 06, 2025 am 12:15 AM

Python和JavaScript各有优势,选择取决于项目需求和个人偏好。1.Python易学,语法简洁,适用于数据科学和后端开发,但执行速度较慢。2.JavaScript在前端开发中无处不在,异步编程能力强,Node.js使其适用于全栈开发,但语法可能复杂且易出错。

JavaScript的核心:它是在C还是C上构建的?JavaScript的核心:它是在C还是C上构建的?May 05, 2025 am 12:07 AM

javascriptisnotbuiltoncorc; saninterpretedlanguagethatrunsonenginesoftenwritteninc.1)javascriptwasdesignedAsalightweight,解释edganguageforwebbrowsers.2)Enginesevolvedfromsimpleterterterpretpreterterterpretertestojitcompilerers,典型地提示。

JavaScript应用程序:从前端到后端JavaScript应用程序:从前端到后端May 04, 2025 am 12:12 AM

JavaScript可用于前端和后端开发。前端通过DOM操作增强用户体验,后端通过Node.js处理服务器任务。1.前端示例:改变网页文本内容。2.后端示例:创建Node.js服务器。

Python vs. JavaScript:您应该学到哪种语言?Python vs. JavaScript:您应该学到哪种语言?May 03, 2025 am 12:10 AM

选择Python还是JavaScript应基于职业发展、学习曲线和生态系统:1)职业发展:Python适合数据科学和后端开发,JavaScript适合前端和全栈开发。2)学习曲线:Python语法简洁,适合初学者;JavaScript语法灵活。3)生态系统:Python有丰富的科学计算库,JavaScript有强大的前端框架。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器