搜尋
首頁web前端js教程測試 LLM 應用程式:模擬 SDK 與直接 HTTP 請求中的不幸事件

Testing LLM Applications: Misadventures in Mocking SDKs vs Direct HTTP Requests

介紹

讓我在這篇部落格的前言中說,這個與我的其他部落格不同,在這些部落格中我能夠逐步完成完成任務的步驟。相反,這更反映了我在嘗試向我的專案 gimme_readme 添加測試時遇到的挑戰,以及我在此過程中學到的關於測試 LLM 支援的應用程式的知識。

背景

本週,我和我的開源開發同學的任務是為包含大型語言模型 (LLM) 的命令列工具新增測試。乍看之下這似乎很簡單,但它讓我陷入了一個我沒有預料到的測試複雜性的兔子洞。

我的測試之旅

最初的方法

當我第一次建立 gimme_readme 時,我使用 Jest.js 添加了一些基本測試。這些測試相當簡單,主要關注:

  • 驗證函數輸出
  • 檢查基本錯誤處理
  • 測試簡單的實用函數

雖然這些測試提供了一些覆蓋範圍,但它們並沒有測試我的申請中最關鍵的部分之一:LLM 互動。

挑戰:測試 LLM 交互

當我嘗試添加更全面的測試時,我對我的應用程式如何與法學碩士進行通信有了一個有趣的認識。最初,我認為可以使用 Nock.js 來模擬對這些語言模型的 HTTP 請求。畢竟,這就是 Nock 的擅長之處 - 攔截和模擬 HTTP 請求以進行測試。

但是,我發現我使用LLM的方式讓我很難用Nock寫測驗。

SDK 與直接 HTTP 請求的困境

這就是事情變得有趣的地方。我的應用程式使用 LLM 服務(例如 Google 的 Gemini 和 Groq)提供的官方 SDK 用戶端。這些 SDK 充當抽象層,在幕後處理所有 HTTP 通訊。雖然這使得程式碼更乾淨、更容易在生產中使用,但它帶來了有趣的測試挑戰。

考慮這兩種實現 LLM 功能的方法:

// Approach 1: Using SDK
const groq = new Groq({ apiKey });
const response = await groq.chat.completions.create({
  messages: [{ role: "user", content: prompt }],
  model: "mixtral-8x7b-32768"
});

// Approach 2: Direct HTTP requests
const response = await fetch('https://api.groq.com/v1/completions', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${apiKey}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    messages: [{ role: "user", content: prompt }],
    model: "mixtral-8x7b-32768"
  })
});

SDK 方法更簡潔,並提供更好的開發人員體驗,但它使得 Nock 等傳統 HTTP 模擬工具不太有用。 HTTP 請求發生在 SDK 內部,這使得它們更難被 Nock 攔截

經驗教訓

  1. 儘早考慮測試策略:在 SDK 和直接 HTTP 請求之間進行選擇時,請考慮如何測試實作。有時「更乾淨」的生產程式碼可能會使測試更具挑戰性。

  2. SDK 測試需要不同的工具:使用 SDK 時,需要在 SDK 層級而不是 HTTP 層級進行模擬。這意味著:

    • 模擬整個 SDK 用戶端
    • 專注於 SDK 的介面而不是 HTTP 請求
    • 使用 Jest 的模組模擬功能而不是 HTTP 攔截器
  3. 便利性和可測試性之間的平衡:雖然 SDK 提供了出色的開發人員體驗,但它們可能會使某些測試方法變得更加困難。在建立應用程式時值得考慮這種權衡。

前進

雖然我還沒有完全解決我的測試挑戰,但這段經歷教會了我關於透過 SDK 測試依賴外部服務的應用程式的寶貴經驗。對於建立類似應用程式的任何人,我建議:

  1. 在 SDK 和直接 API 呼叫之間進行選擇時考慮測試策略
  2. 如果使用 SDK,請規劃在 SDK 等級而不是 HTTP 等級進行模擬
  3. 考慮在 SDK 周圍編寫薄包裝器,使它們更易於測試
  4. 為可能參與該專案的其他人記錄測試方法

結論

測試 LLM 應用程式帶來了獨特的挑戰,特別是在平衡 SDK 等現代開發便利性與徹底測試的需要時。雖然我仍在努力提高 gimme_readme 的測試覆蓋率,但這次經歷讓我更了解如何在涉及外部服務和 SDK 的未來專案中進行測試。

還有其他人在測試使用 LLM SDK 的應用程式時遇到類似的挑戰嗎?我很想在評論中聽到您的經驗和解決方案!

以上是測試 LLM 應用程式:模擬 SDK 與直接 HTTP 請求中的不幸事件的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
在JavaScript中替換字符串字符在JavaScript中替換字符串字符Mar 11, 2025 am 12:07 AM

JavaScript字符串替換方法詳解及常見問題解答 本文將探討兩種在JavaScript中替換字符串字符的方法:在JavaScript代碼內部替換和在網頁HTML內部替換。 在JavaScript代碼內部替換字符串 最直接的方法是使用replace()方法: str = str.replace("find","replace"); 該方法僅替換第一個匹配項。要替換所有匹配項,需使用正則表達式並添加全局標誌g: str = str.replace(/fi

自定義Google搜索API設置教程自定義Google搜索API設置教程Mar 04, 2025 am 01:06 AM

本教程向您展示瞭如何將自定義的Google搜索API集成到您的博客或網站中,提供了比標準WordPress主題搜索功能更精緻的搜索體驗。 令人驚訝的是簡單!您將能夠將搜索限制為Y

構建您自己的Ajax Web應用程序構建您自己的Ajax Web應用程序Mar 09, 2025 am 12:11 AM

因此,在這裡,您準備好了解所有稱為Ajax的東西。但是,到底是什麼? AJAX一詞是指用於創建動態,交互式Web內容的一系列寬鬆的技術。 Ajax一詞,最初由Jesse J創造

示例顏色json文件示例顏色json文件Mar 03, 2025 am 12:35 AM

本文系列在2017年中期進行了最新信息和新示例。 在此JSON示例中,我們將研究如何使用JSON格式將簡單值存儲在文件中。 使用鍵值對符號,我們可以存儲任何類型的

8令人驚嘆的jQuery頁面佈局插件8令人驚嘆的jQuery頁面佈局插件Mar 06, 2025 am 12:48 AM

利用輕鬆的網頁佈局:8 ESTISSEL插件jQuery大大簡化了網頁佈局。 本文重點介紹了簡化該過程的八個功能強大的JQuery插件,對於手動網站創建特別有用

什麼是這個'在JavaScript?什麼是這個'在JavaScript?Mar 04, 2025 am 01:15 AM

核心要點 JavaScript 中的 this 通常指代“擁有”該方法的對象,但具體取決於函數的調用方式。 沒有當前對象時,this 指代全局對象。在 Web 瀏覽器中,它由 window 表示。 調用函數時,this 保持全局對象;但調用對象構造函數或其任何方法時,this 指代對象的實例。 可以使用 call()、apply() 和 bind() 等方法更改 this 的上下文。這些方法使用給定的 this 值和參數調用函數。 JavaScript 是一門優秀的編程語言。幾年前,這句話可

通過來源查看器提高您的jQuery知識通過來源查看器提高您的jQuery知識Mar 05, 2025 am 12:54 AM

jQuery是一個很棒的JavaScript框架。但是,與任何圖書館一樣,有時有必要在引擎蓋下發現發生了什麼。也許是因為您正在追踪一個錯誤,或者只是對jQuery如何實現特定UI感到好奇

10張移動秘籍用於移動開發10張移動秘籍用於移動開發Mar 05, 2025 am 12:43 AM

該帖子編寫了有用的作弊表,參考指南,快速食譜以及用於Android,BlackBerry和iPhone應用程序開發的代碼片段。 沒有開發人員應該沒有他們! 觸摸手勢參考指南(PDF)是Desig的寶貴資源

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)