介紹
讓我在這篇部落格的前言中說,這個與我的其他部落格不同,在這些部落格中我能夠逐步完成完成任務的步驟。相反,這更反映了我在嘗試向我的專案 gimme_readme 添加測試時遇到的挑戰,以及我在此過程中學到的關於測試 LLM 支援的應用程式的知識。
背景
本週,我和我的開源開發同學的任務是為包含大型語言模型 (LLM) 的命令列工具新增測試。乍看之下這似乎很簡單,但它讓我陷入了一個我沒有預料到的測試複雜性的兔子洞。
我的測試之旅
最初的方法
當我第一次建立 gimme_readme 時,我使用 Jest.js 添加了一些基本測試。這些測試相當簡單,主要關注:
- 驗證函數輸出
- 檢查基本錯誤處理
- 測試簡單的實用函數
雖然這些測試提供了一些覆蓋範圍,但它們並沒有測試我的申請中最關鍵的部分之一:LLM 互動。
挑戰:測試 LLM 交互
當我嘗試添加更全面的測試時,我對我的應用程式如何與法學碩士進行通信有了一個有趣的認識。最初,我認為可以使用 Nock.js 來模擬對這些語言模型的 HTTP 請求。畢竟,這就是 Nock 的擅長之處 - 攔截和模擬 HTTP 請求以進行測試。
但是,我發現我使用LLM的方式讓我很難用Nock寫測驗。
SDK 與直接 HTTP 請求的困境
這就是事情變得有趣的地方。我的應用程式使用 LLM 服務(例如 Google 的 Gemini 和 Groq)提供的官方 SDK 用戶端。這些 SDK 充當抽象層,在幕後處理所有 HTTP 通訊。雖然這使得程式碼更乾淨、更容易在生產中使用,但它帶來了有趣的測試挑戰。
考慮這兩種實現 LLM 功能的方法:
// Approach 1: Using SDK const groq = new Groq({ apiKey }); const response = await groq.chat.completions.create({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }); // Approach 2: Direct HTTP requests const response = await fetch('https://api.groq.com/v1/completions', { method: 'POST', headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' }, body: JSON.stringify({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }) });
SDK 方法更簡潔,並提供更好的開發人員體驗,但它使得 Nock 等傳統 HTTP 模擬工具不太有用。 HTTP 請求發生在 SDK 內部,這使得它們更難被 Nock 攔截。
經驗教訓
儘早考慮測試策略:在 SDK 和直接 HTTP 請求之間進行選擇時,請考慮如何測試實作。有時「更乾淨」的生產程式碼可能會使測試更具挑戰性。
-
SDK 測試需要不同的工具:使用 SDK 時,需要在 SDK 層級而不是 HTTP 層級進行模擬。這意味著:
- 模擬整個 SDK 用戶端
- 專注於 SDK 的介面而不是 HTTP 請求
- 使用 Jest 的模組模擬功能而不是 HTTP 攔截器
便利性和可測試性之間的平衡:雖然 SDK 提供了出色的開發人員體驗,但它們可能會使某些測試方法變得更加困難。在建立應用程式時值得考慮這種權衡。
前進
雖然我還沒有完全解決我的測試挑戰,但這段經歷教會了我關於透過 SDK 測試依賴外部服務的應用程式的寶貴經驗。對於建立類似應用程式的任何人,我建議:
- 在 SDK 和直接 API 呼叫之間進行選擇時考慮測試策略
- 如果使用 SDK,請規劃在 SDK 等級而不是 HTTP 等級進行模擬
- 考慮在 SDK 周圍編寫薄包裝器,使它們更易於測試
- 為可能參與該專案的其他人記錄測試方法
結論
測試 LLM 應用程式帶來了獨特的挑戰,特別是在平衡 SDK 等現代開發便利性與徹底測試的需要時。雖然我仍在努力提高 gimme_readme 的測試覆蓋率,但這次經歷讓我更了解如何在涉及外部服務和 SDK 的未來專案中進行測試。
還有其他人在測試使用 LLM SDK 的應用程式時遇到類似的挑戰嗎?我很想在評論中聽到您的經驗和解決方案!
以上是測試 LLM 應用程式:模擬 SDK 與直接 HTTP 請求中的不幸事件的詳細內容。更多資訊請關注PHP中文網其他相關文章!

JavaScript字符串替換方法詳解及常見問題解答 本文將探討兩種在JavaScript中替換字符串字符的方法:在JavaScript代碼內部替換和在網頁HTML內部替換。 在JavaScript代碼內部替換字符串 最直接的方法是使用replace()方法: str = str.replace("find","replace"); 該方法僅替換第一個匹配項。要替換所有匹配項,需使用正則表達式並添加全局標誌g: str = str.replace(/fi

本教程向您展示瞭如何將自定義的Google搜索API集成到您的博客或網站中,提供了比標準WordPress主題搜索功能更精緻的搜索體驗。 令人驚訝的是簡單!您將能夠將搜索限制為Y

因此,在這裡,您準備好了解所有稱為Ajax的東西。但是,到底是什麼? AJAX一詞是指用於創建動態,交互式Web內容的一系列寬鬆的技術。 Ajax一詞,最初由Jesse J創造

本文系列在2017年中期進行了最新信息和新示例。 在此JSON示例中,我們將研究如何使用JSON格式將簡單值存儲在文件中。 使用鍵值對符號,我們可以存儲任何類型的

利用輕鬆的網頁佈局:8 ESTISSEL插件jQuery大大簡化了網頁佈局。 本文重點介紹了簡化該過程的八個功能強大的JQuery插件,對於手動網站創建特別有用

核心要點 JavaScript 中的 this 通常指代“擁有”該方法的對象,但具體取決於函數的調用方式。 沒有當前對象時,this 指代全局對象。在 Web 瀏覽器中,它由 window 表示。 調用函數時,this 保持全局對象;但調用對象構造函數或其任何方法時,this 指代對象的實例。 可以使用 call()、apply() 和 bind() 等方法更改 this 的上下文。這些方法使用給定的 this 值和參數調用函數。 JavaScript 是一門優秀的編程語言。幾年前,這句話可

jQuery是一個很棒的JavaScript框架。但是,與任何圖書館一樣,有時有必要在引擎蓋下發現發生了什麼。也許是因為您正在追踪一個錯誤,或者只是對jQuery如何實現特定UI感到好奇

該帖子編寫了有用的作弊表,參考指南,快速食譜以及用於Android,BlackBerry和iPhone應用程序開發的代碼片段。 沒有開發人員應該沒有他們! 觸摸手勢參考指南(PDF)是Desig的寶貴資源


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Linux新版
SublimeText3 Linux最新版

SublimeText3漢化版
中文版,非常好用

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)