測試 LLM 應用程式：模擬 SDK 與直接 HTTP 請求中的不幸事件-js教程-PHP中文網

首頁

web前端

js教程

測試 LLM 應用程式：模擬 SDK 與直接 HTTP 請求中的不幸事件

Barbara Streisand

Dec 04, 2024 am 11:03 AM

Testing LLM Applications: Misadventures in Mocking SDKs vs Direct HTTP Requests

介紹

讓我在這篇部落格的前言中說，這個與我的其他部落格不同，在這些部落格中我能夠逐步完成完成任務的步驟。相反，這更反映了我在嘗試向我的專案 gimme_readme 添加測試時遇到的挑戰，以及我在此過程中學到的關於測試 LLM 支援的應用程式的知識。

背景

本週，我和我的開源開發同學的任務是為包含大型語言模型 (LLM) 的命令列工具新增測試。乍看之下這似乎很簡單，但它讓我陷入了一個我沒有預料到的測試複雜性的兔子洞。

我的測試之旅

最初的方法

當我第一次建立 gimme_readme 時，我使用 Jest.js 添加了一些基本測試。這些測試相當簡單，主要關注：

驗證函數輸出
檢查基本錯誤處理
測試簡單的實用函數

雖然這些測試提供了一些覆蓋範圍，但它們並沒有測試我的申請中最關鍵的部分之一：LLM 互動。

挑戰：測試 LLM 交互

當我嘗試添加更全面的測試時，我對我的應用程式如何與法學碩士進行通信有了一個有趣的認識。最初，我認為可以使用 Nock.js 來模擬對這些語言模型的 HTTP 請求。畢竟，這就是 Nock 的擅長之處 - 攔截和模擬 HTTP 請求以進行測試。

但是，我發現我使用LLM的方式讓我很難用Nock寫測驗。

SDK 與直接 HTTP 請求的困境

這就是事情變得有趣的地方。我的應用程式使用 LLM 服務（例如 Google 的 Gemini 和 Groq）提供的官方 SDK 用戶端。這些 SDK 充當抽象層，在幕後處理所有 HTTP 通訊。雖然這使得程式碼更乾淨、更容易在生產中使用，但它帶來了有趣的測試挑戰。

考慮這兩種實現 LLM 功能的方法：

// Approach 1: Using SDK
const groq = new Groq({ apiKey });
const response = await groq.chat.completions.create({
  messages: [{ role: "user", content: prompt }],
  model: "mixtral-8x7b-32768"
});

// Approach 2: Direct HTTP requests
const response = await fetch('https://api.groq.com/v1/completions', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${apiKey}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    messages: [{ role: "user", content: prompt }],
    model: "mixtral-8x7b-32768"
  })
});

SDK 方法更簡潔，並提供更好的開發人員體驗，但它使得 Nock 等傳統 HTTP 模擬工具不太有用。 HTTP 請求發生在 SDK 內部，這使得它們更難被 Nock 攔截。

經驗教訓

儘早考慮測試策略：在 SDK 和直接 HTTP 請求之間進行選擇時，請考慮如何測試實作。有時「更乾淨」的生產程式碼可能會使測試更具挑戰性。
SDK 測試需要不同的工具：使用 SDK 時，需要在 SDK 層級而不是 HTTP 層級進行模擬。這意味著：
- 模擬整個 SDK 用戶端
- 專注於 SDK 的介面而不是 HTTP 請求
- 使用 Jest 的模組模擬功能而不是 HTTP 攔截器
便利性和可測試性之間的平衡：雖然 SDK 提供了出色的開發人員體驗，但它們可能會使某些測試方法變得更加困難。在建立應用程式時值得考慮這種權衡。

前進

雖然我還沒有完全解決我的測試挑戰，但這段經歷教會了我關於透過 SDK 測試依賴外部服務的應用程式的寶貴經驗。對於建立類似應用程式的任何人，我建議：

在 SDK 和直接 API 呼叫之間進行選擇時考慮測試策略
如果使用 SDK，請規劃在 SDK 等級而不是 HTTP 等級進行模擬
考慮在 SDK 周圍編寫薄包裝器，使它們更易於測試
為可能參與該專案的其他人記錄測試方法

結論

測試 LLM 應用程式帶來了獨特的挑戰，特別是在平衡 SDK 等現代開發便利性與徹底測試的需要時。雖然我仍在努力提高 gimme_readme 的測試覆蓋率，但這次經歷讓我更了解如何在涉及外部服務和 SDK 的未來專案中進行測試。

還有其他人在測試使用 LLM SDK 的應用程式時遇到類似的挑戰嗎？我很想在評論中聽到您的經驗和解決方案！

以上是測試 LLM 應用程式：模擬 SDK 與直接 HTTP 請求中的不幸事件的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

在JavaScript中替換字符串字符Mar 11, 2025 am 12:07 AM

JavaScript字符串替換方法詳解及常見問題解答本文將探討兩種在JavaScript中替換字符串字符的方法：在JavaScript代碼內部替換和在網頁HTML內部替換。在JavaScript代碼內部替換字符串最直接的方法是使用replace()方法： str = str.replace("find","replace"); 該方法僅替換第一個匹配項。要替換所有匹配項，需使用正則表達式並添加全局標誌g： str = str.replace(/fi

自定義Google搜索API設置教程Mar 04, 2025 am 01:06 AM

本教程向您展示瞭如何將自定義的Google搜索API集成到您的博客或網站中，提供了比標準WordPress主題搜索功能更精緻的搜索體驗。令人驚訝的是簡單！您將能夠將搜索限制為Y

構建您自己的Ajax Web應用程序Mar 09, 2025 am 12:11 AM

因此，在這裡，您準備好了解所有稱為Ajax的東西。但是，到底是什麼？ AJAX一詞是指用於創建動態，交互式Web內容的一系列寬鬆的技術。 Ajax一詞，最初由Jesse J創造

示例顏色json文件Mar 03, 2025 am 12:35 AM

本文系列在2017年中期進行了最新信息和新示例。在此JSON示例中，我們將研究如何使用JSON格式將簡單值存儲在文件中。使用鍵值對符號，我們可以存儲任何類型的

8令人驚嘆的jQuery頁面佈局插件Mar 06, 2025 am 12:48 AM

利用輕鬆的網頁佈局：8 ESTISSEL插件jQuery大大簡化了網頁佈局。本文重點介紹了簡化該過程的八個功能強大的JQuery插件，對於手動網站創建特別有用

什麼是這個＆＃x27;在JavaScript？Mar 04, 2025 am 01:15 AM

核心要點 JavaScript 中的 this 通常指代“擁有”該方法的對象，但具體取決於函數的調用方式。沒有當前對象時，this 指代全局對象。在 Web 瀏覽器中，它由 window 表示。調用函數時，this 保持全局對象；但調用對象構造函數或其任何方法時，this 指代對象的實例。可以使用 call()、apply() 和 bind() 等方法更改 this 的上下文。這些方法使用給定的 this 值和參數調用函數。 JavaScript 是一門優秀的編程語言。幾年前，這句話可