導入
このブログは、タスクを完了するまでの手順を順を追って説明する他のブログとは違うということを前置きさせていただきます。むしろ、これは、プロジェクト gimme_readme にテストを追加しようとして遭遇した課題と、その過程で LLM を利用したアプリケーションのテストについて学んだことを反映したものです。
コンテキスト
今週、オープンソース開発のクラスメートと私は、大規模言語モデル (LLM) を組み込んだコマンドライン ツールにテストを追加するという任務を与えられました。最初は簡単そうに見えましたが、予想していなかった複雑なテストのウサギの穴に私を導きました。
私のテストの旅
最初のアプローチ
初めて gimme_readme を構築したとき、Jest.js を使用していくつかの基本的なテストを追加しました。これらのテストは非常に単純で、主に次の点に焦点を当てていました。
- 関数の出力を検証する
- 基本的なエラー処理の確認
- 単純なユーティリティ関数のテスト
これらのテストはある程度の範囲をカバーしましたが、アプリケーションの最も重要な部分の 1 つである LLM インタラクションをテストしていませんでした。
課題: LLM インタラクションのテスト
より包括的なテストを追加しようとしたとき、アプリケーションが LLM とどのように通信するかについて興味深いことに気づきました。当初、私は Nock.js を使用して、これらの言語モデルへの HTTP リクエストを模擬できると考えました。結局のところ、Nock が得意とするのは、テストのために HTTP リクエストをインターセプトしてモックすることです。
しかし、私が LLM を使用している方法では、Nock を使用してテストを書くのが難しくなっていることがわかりました。
SDK とダイレクト HTTP リクエストのジレンマ
ここからが興味深いところです。私のアプリケーションは、Google の Gemini や Groq などの LLM サービスによって提供される公式 SDK クライアントを使用します。これらの SDK は、すべての HTTP 通信をバックグラウンドで処理する抽象化レイヤーとして機能します。これにより、コードがよりクリーンになり、運用環境での作業が容易になりますが、興味深いテスト上の課題が生じます。
LLM 機能を実装するには、次の 2 つのアプローチを検討してください。
// Approach 1: Using SDK const groq = new Groq({ apiKey }); const response = await groq.chat.completions.create({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }); // Approach 2: Direct HTTP requests const response = await fetch('https://api.groq.com/v1/completions', { method: 'POST', headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' }, body: JSON.stringify({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }) });
SDK アプローチはよりクリーンで、開発者エクスペリエンスが向上しますが、Nock のような従来の HTTP モック ツールの有用性が低くなります。 HTTP リクエストは SDK 内で発生するため、Nock による傍受が困難になります。
学んだ教訓
早期にテスト戦略を検討する: SDK と直接 HTTP リクエストのどちらを選択する場合は、実装をテストする方法を検討してください。場合によっては、実稼働コードが「よりクリーン」になると、テストがより困難になる場合があります。
-
SDK テストにはさまざまなツールが必要です: SDK を使用する場合、HTTP レベルではなく SDK レベルでモックする必要があります。これは次のことを意味します:
- SDK クライアント全体をモックする
- HTTP リクエストではなく SDK のインターフェースに焦点を当てます
- HTTP インターセプターの代わりに Jest のモジュール モック機能を使用する
利便性とテスト容易性のバランス: SDK は優れた開発者エクスペリエンスを提供しますが、特定のテスト手法をより困難にする可能性があります。アプリケーションを設計する際には、このトレードオフを考慮する価値があります。
今後の展開
テストの課題はまだ完全には解決していませんが、この経験から、SDK を介した外部サービスに依存するアプリケーションのテストについて貴重な教訓を得ることができました。同様のアプリケーションを構築している人には、以下をお勧めします。
- SDK と直接 API 呼び出しのどちらかを選択する場合は、テスト戦略を考慮してください
- SDK を使用する場合は、HTTP レベルではなく SDK レベルでモックすることを計画してください
- SDK をテストしやすくするために、SDK の周囲に薄いラッパーを作成することを検討してください
- プロジェクトに取り組む他の人のためにテストのアプローチを文書化します
結論
LLM アプリケーションのテストには、特に SDK などの最新の開発の利便性と徹底的なテストの必要性のバランスを取る場合に、特有の課題が伴います。私はまだ gimme_readme のテスト カバレッジの改善に取り組んでいますが、この経験により、外部サービスや SDK が関与する将来のプロジェクトでのテストへのアプローチ方法についてより深く理解できるようになりました。
LLM SDK を使用するアプリケーションをテストするときに、同様の課題に遭遇した人はいますか?コメントであなたの経験や解決策をぜひお聞かせください!
以上がLLM アプリケーションのテスト: SDK のモックと直接 HTTP リクエストにおける不運の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

JavaScript文字列置換法とFAQの詳細な説明 この記事では、javaScriptの文字列文字を置き換える2つの方法について説明します:内部JavaScriptコードとWebページの内部HTML。 JavaScriptコード内の文字列を交換します 最も直接的な方法は、置換()メソッドを使用することです。 str = str.replace( "find"、 "置換"); この方法は、最初の一致のみを置き換えます。すべての一致を置き換えるには、正規表現を使用して、グローバルフラグGを追加します。 str = str.replace(/fi

このチュートリアルでは、カスタムGoogle検索APIをブログまたはWebサイトに統合する方法を示し、標準のWordPressテーマ検索関数よりも洗練された検索エクスペリエンスを提供します。 驚くほど簡単です!検索をyに制限することができます

この記事シリーズは、2017年半ばに最新の情報と新鮮な例で書き直されました。 このJSONの例では、JSON形式を使用してファイルに単純な値を保存する方法について説明します。 キー価値ペア表記を使用して、あらゆる種類を保存できます

それで、あなたはここで、Ajaxと呼ばれるこのことについてすべてを学ぶ準備ができています。しかし、それは正確には何ですか? Ajaxという用語は、動的でインタラクティブなWebコンテンツを作成するために使用されるテクノロジーのゆるいグループ化を指します。 Ajaxという用語は、もともとJesse Jによって造られました

楽なWebページレイアウトのためにjQueryを活用する:8本質的なプラグイン jQueryは、Webページのレイアウトを大幅に簡素化します。 この記事では、プロセスを合理化する8つの強力なjQueryプラグイン、特に手動のウェブサイトの作成に役立ちます

コアポイント これは通常、メソッドを「所有」するオブジェクトを指しますが、関数がどのように呼び出されるかに依存します。 現在のオブジェクトがない場合、これはグローバルオブジェクトを指します。 Webブラウザでは、ウィンドウで表されます。 関数を呼び出すと、これはグローバルオブジェクトを維持しますが、オブジェクトコンストラクターまたはそのメソッドを呼び出すとき、これはオブジェクトのインスタンスを指します。 call()、apply()、bind()などのメソッドを使用して、このコンテキストを変更できます。これらのメソッドは、与えられたこの値とパラメーターを使用して関数を呼び出します。 JavaScriptは優れたプログラミング言語です。数年前、この文はそうでした

jQueryは素晴らしいJavaScriptフレームワークです。ただし、他のライブラリと同様に、何が起こっているのかを発見するためにフードの下に入る必要がある場合があります。おそらく、バグをトレースしているか、jQueryが特定のUIをどのように達成するかに興味があるからです

この投稿は、Android、BlackBerry、およびiPhoneアプリ開発用の有用なチートシート、リファレンスガイド、クイックレシピ、コードスニペットをコンパイルします。 開発者がいないべきではありません! タッチジェスチャーリファレンスガイド(PDF) Desigの貴重なリソース


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ホットトピック









