介绍
让我在这篇博客的前言中说,这个与我的其他博客不同,在这些博客中我能够逐步完成完成任务的步骤。相反,这更多地反映了我在尝试向我的项目 gimme_readme 添加测试时遇到的挑战,以及我在此过程中学到的关于测试 LLM 支持的应用程序的知识。
背景
本周,我和我的开源开发同学的任务是向包含大型语言模型 (LLM) 的命令行工具添加测试。乍一看这似乎很简单,但它让我陷入了一个我没有预料到的测试复杂性的兔子洞。
我的测试之旅
最初的方法
当我第一次构建 gimme_readme 时,我使用 Jest.js 添加了一些基本测试。这些测试相当简单,主要关注:
- 验证函数输出
- 检查基本错误处理
- 测试简单的实用函数
虽然这些测试提供了一些覆盖范围,但它们并没有测试我的申请中最关键的部分之一:LLM 交互。
挑战:测试 LLM 交互
当我尝试添加更全面的测试时,我对我的应用程序如何与法学硕士进行通信有了一个有趣的认识。最初,我认为可以使用 Nock.js 来模拟对这些语言模型的 HTTP 请求。毕竟,这就是 Nock 的擅长之处 - 拦截和模拟 HTTP 请求以进行测试。
但是,我发现我使用LLM的方式让我很难使用Nock编写测试。
SDK 与直接 HTTP 请求的困境
这就是事情变得有趣的地方。我的应用程序使用由 LLM 服务(例如 Google 的 Gemini 和 Groq)提供的官方 SDK 客户端。这些 SDK 充当抽象层,在幕后处理所有 HTTP 通信。虽然这使得代码更干净、更容易在生产中使用,但它带来了有趣的测试挑战。
考虑这两种实现 LLM 功能的方法:
// Approach 1: Using SDK const groq = new Groq({ apiKey }); const response = await groq.chat.completions.create({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }); // Approach 2: Direct HTTP requests const response = await fetch('https://api.groq.com/v1/completions', { method: 'POST', headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' }, body: JSON.stringify({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }) });
SDK 方法更简洁,并提供更好的开发人员体验,但它使得 Nock 等传统 HTTP 模拟工具不太有用。 HTTP 请求发生在 SDK 内部,这使得它们更难被 Nock 拦截。
经验教训
尽早考虑测试策略:在 SDK 和直接 HTTP 请求之间进行选择时,请考虑如何测试实现。有时“更干净”的生产代码可能会使测试更具挑战性。
-
SDK 测试需要不同的工具:使用 SDK 时,需要在 SDK 级别而不是 HTTP 级别进行模拟。这意味着:
- 模拟整个 SDK 客户端
- 专注于 SDK 的接口而不是 HTTP 请求
- 使用 Jest 的模块模拟功能而不是 HTTP 拦截器
便利性和可测试性之间的平衡:虽然 SDK 提供了出色的开发人员体验,但它们可能会使某些测试方法变得更加困难。在构建应用程序时值得考虑这种权衡。
前进
虽然我还没有完全解决我的测试挑战,但这段经历教会了我关于通过 SDK 测试依赖于外部服务的应用程序的宝贵经验。对于构建类似应用程序的任何人,我建议:
- 在 SDK 和直接 API 调用之间进行选择时考虑测试策略
- 如果使用 SDK,请计划在 SDK 级别而不是 HTTP 级别进行模拟
- 考虑在 SDK 周围编写薄包装器,使它们更易于测试
- 为可能参与该项目的其他人记录测试方法
结论
测试 LLM 应用程序带来了独特的挑战,特别是在平衡 SDK 等现代开发便利性与彻底测试的需要时。虽然我仍在努力提高 gimme_readme 的测试覆盖率,但这次经历让我更好地了解了如何在涉及外部服务和 SDK 的未来项目中进行测试。
还有其他人在测试使用 LLM SDK 的应用程序时遇到过类似的挑战吗?我很想在评论中听到您的经验和解决方案!
以上是测试 LLM 应用程序:模拟 SDK 与直接 HTTP 请求中的不幸事件的详细内容。更多信息请关注PHP中文网其他相关文章!

引言我知道你可能会觉得奇怪,JavaScript、C 和浏览器之间到底有什么关系?它们之间看似毫无关联,但实际上,它们在现代网络开发中扮演着非常重要的角色。今天我们就来深入探讨一下这三者之间的紧密联系。通过这篇文章,你将了解到JavaScript如何在浏览器中运行,C 在浏览器引擎中的作用,以及它们如何共同推动网页的渲染和交互。JavaScript与浏览器的关系我们都知道,JavaScript是前端开发的核心语言,它直接在浏览器中运行,让网页变得生动有趣。你是否曾经想过,为什么JavaScr

Node.js擅长于高效I/O,这在很大程度上要归功于流。 流媒体汇总处理数据,避免内存过载 - 大型文件,网络任务和实时应用程序的理想。将流与打字稿的类型安全结合起来创建POWE

Python和JavaScript在性能和效率方面的差异主要体现在:1)Python作为解释型语言,运行速度较慢,但开发效率高,适合快速原型开发;2)JavaScript在浏览器中受限于单线程,但在Node.js中可利用多线程和异步I/O提升性能,两者在实际项目中各有优势。

JavaScript起源于1995年,由布兰登·艾克创造,实现语言为C语言。1.C语言为JavaScript提供了高性能和系统级编程能力。2.JavaScript的内存管理和性能优化依赖于C语言。3.C语言的跨平台特性帮助JavaScript在不同操作系统上高效运行。

JavaScript在浏览器和Node.js环境中运行,依赖JavaScript引擎解析和执行代码。1)解析阶段生成抽象语法树(AST);2)编译阶段将AST转换为字节码或机器码;3)执行阶段执行编译后的代码。

Python和JavaScript的未来趋势包括:1.Python将巩固在科学计算和AI领域的地位,2.JavaScript将推动Web技术发展,3.跨平台开发将成为热门,4.性能优化将是重点。两者都将继续在各自领域扩展应用场景,并在性能上有更多突破。

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda,适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack,适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。

是的,JavaScript的引擎核心是用C语言编写的。1)C语言提供了高效性能和底层控制,适合JavaScript引擎的开发。2)以V8引擎为例,其核心用C 编写,结合了C的效率和面向对象特性。3)JavaScript引擎的工作原理包括解析、编译和执行,C语言在这些过程中发挥关键作用。


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

WebStorm Mac版
好用的JavaScript开发工具

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。