cari
Rumahhujung hadapan webtutorial jsMenguji Aplikasi LLM: Kesalahan dalam SDK Mengejek vs Permintaan HTTP Terus

Testing LLM Applications: Misadventures in Mocking SDKs vs Direct HTTP Requests

pengenalan

Izinkan saya mendahului blog ini dengan mengatakan ini bukan seperti blog saya yang lain di mana saya dapat melalui langkah-langkah yang saya ambil untuk menyelesaikan tugasan. Sebaliknya, ini lebih kepada refleksi tentang cabaran yang saya temui semasa cuba menambahkan ujian pada projek saya, gimme_readme dan perkara yang saya pelajari tentang menguji aplikasi berkuasa LLM sepanjang perjalanan.

Konteks

Minggu ini, saya dan rakan sekelas Pembangunan Sumber Terbuka ditugaskan untuk menambah ujian pada alatan baris perintah kami yang menggabungkan Model Bahasa Besar (LLM). Ini kelihatan mudah pada mulanya, tetapi ia membawa saya ke dalam lubang arnab dengan kerumitan ujian yang tidak saya jangkakan.

Perjalanan Ujian Saya

Pendekatan Awal

Apabila saya mula-mula membina gimme_readme, saya menambahkan beberapa ujian asas menggunakan Jest.js. Ujian ini agak mudah, memfokuskan terutamanya pada:

  • Mengesahkan output fungsi
  • Menyemak pengendalian ralat asas
  • Menguji fungsi utiliti mudah

Walaupun ujian ini memberikan beberapa liputan, mereka tidak menguji salah satu bahagian paling kritikal dalam aplikasi saya: interaksi LLM.

Cabaran: Menguji Interaksi LLM

Ketika saya cuba menambah ujian yang lebih komprehensif, saya mendapat kesedaran yang menarik tentang cara aplikasi saya berkomunikasi dengan LLM. Pada mulanya, saya fikir saya boleh menggunakan Nock.js untuk mengejek permintaan HTTP kepada model bahasa ini. Lagipun, itulah kehebatan Nock - memintas dan mengejek permintaan HTTP untuk ujian.

Walau bagaimanapun, saya mendapati bahawa cara saya menggunakan LLM menyukarkan saya untuk menulis ujian menggunakan Nock.

Dilema Permintaan SDK vs HTTP Terus

Di sinilah perkara menjadi menarik. Aplikasi saya menggunakan pelanggan SDK rasmi yang disediakan oleh perkhidmatan LLM seperti Gemini dan Groq Google. SDK ini bertindak sebagai lapisan abstraksi yang mengendalikan semua komunikasi HTTP di sebalik tabir. Walaupun ini menjadikan kod lebih bersih dan lebih mudah untuk digunakan dalam pengeluaran, ia mewujudkan cabaran ujian yang menarik.

Pertimbangkan dua pendekatan ini untuk melaksanakan fungsi LLM:

// Approach 1: Using SDK
const groq = new Groq({ apiKey });
const response = await groq.chat.completions.create({
  messages: [{ role: "user", content: prompt }],
  model: "mixtral-8x7b-32768"
});

// Approach 2: Direct HTTP requests
const response = await fetch('https://api.groq.com/v1/completions', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${apiKey}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    messages: [{ role: "user", content: prompt }],
    model: "mixtral-8x7b-32768"
  })
});

Pendekatan SDK adalah lebih bersih dan memberikan pengalaman pembangun yang lebih baik, tetapi ia menjadikan alat mengejek HTTP tradisional seperti Nock kurang berguna. Permintaan HTTP berlaku di dalam SDK, menjadikannya lebih sukar untuk memintas dengan Nock.

Pengajaran

  1. Pertimbangkan Strategi Pengujian Awal: Apabila memilih antara SDK dan permintaan HTTP langsung, pertimbangkan cara anda akan menguji pelaksanaan. Kadangkala kod pengeluaran "lebih bersih" mungkin menjadikan ujian lebih mencabar.

  2. Pengujian SDK Memerlukan Alat Berbeza: Apabila menggunakan SDK, anda perlu mengejek pada tahap SDK dan bukannya tahap HTTP. Ini bermakna:

    • Mengejek seluruh klien SDK
    • Memfokus pada antara muka SDK dan bukannya permintaan HTTP
    • Menggunakan keupayaan mengejek modul Jest dan bukannya pemintas HTTP
  3. Imbangan Antara Kemudahan dan Kebolehujian: Walaupun SDK memberikan pengalaman pembangun yang hebat, mereka boleh menjadikan pendekatan ujian tertentu lebih sukar. Pertimbangan ini patut dipertimbangkan semasa mereka bentuk aplikasi anda.

Melangkah ke Hadapan

Walaupun saya masih belum menyelesaikan sepenuhnya cabaran ujian saya, pengalaman ini telah mengajar saya pelajaran berharga tentang menguji aplikasi yang bergantung pada perkhidmatan luaran melalui SDK. Bagi sesiapa yang membina aplikasi serupa, saya akan mengesyorkan:

  1. Fikirkan tentang strategi ujian apabila memilih antara SDK dan panggilan API langsung
  2. Jika menggunakan SDK, rancang untuk mengejek pada tahap SDK dan bukannya tahap HTTP
  3. Pertimbangkan untuk menulis pembalut nipis di sekeliling SDK untuk menjadikannya lebih boleh diuji
  4. Dokumenkan pendekatan ujian untuk orang lain yang mungkin mengusahakan projek

Kesimpulan

Menguji aplikasi LLM memberikan cabaran unik, terutamanya apabila mengimbangi kemudahan pembangunan moden seperti SDK dengan keperluan untuk ujian menyeluruh. Semasa saya masih berusaha untuk meningkatkan liputan ujian untuk gimme_readme, pengalaman ini telah memberikan saya pemahaman yang lebih baik tentang cara mendekati ujian dalam projek masa hadapan yang melibatkan perkhidmatan luaran dan SDK.

Adakah orang lain menghadapi cabaran yang sama semasa menguji aplikasi yang menggunakan LLM SDK? Saya ingin mendengar tentang pengalaman dan penyelesaian anda dalam ulasan!

Atas ialah kandungan terperinci Menguji Aplikasi LLM: Kesalahan dalam SDK Mengejek vs Permintaan HTTP Terus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Beyond the Browser: JavaScript di dunia nyataBeyond the Browser: JavaScript di dunia nyataApr 12, 2025 am 12:06 AM

Aplikasi JavaScript di dunia nyata termasuk pengaturcaraan sisi pelayan, pembangunan aplikasi mudah alih dan Internet of Things Control: 1. Pengaturcaraan sisi pelayan direalisasikan melalui node.js, sesuai untuk pemprosesan permintaan serentak yang tinggi. 2. Pembangunan aplikasi mudah alih dijalankan melalui reaktnatif dan menyokong penggunaan silang platform. 3. Digunakan untuk kawalan peranti IoT melalui Perpustakaan Johnny-Five, sesuai untuk interaksi perkakasan.

Membina aplikasi SaaS Multi-penyewa dengan Next.js (Integrasi Backend)Membina aplikasi SaaS Multi-penyewa dengan Next.js (Integrasi Backend)Apr 11, 2025 am 08:23 AM

Saya membina aplikasi SaaS multi-penyewa berfungsi (aplikasi edTech) dengan alat teknologi harian anda dan anda boleh melakukan perkara yang sama. Pertama, apakah aplikasi SaaS multi-penyewa? Aplikasi SaaS Multi-penyewa membolehkan anda melayani beberapa pelanggan dari Sing

Cara Membina Aplikasi SaaS Multi-Tenant dengan Next.js (Integrasi Frontend)Cara Membina Aplikasi SaaS Multi-Tenant dengan Next.js (Integrasi Frontend)Apr 11, 2025 am 08:22 AM

Artikel ini menunjukkan integrasi frontend dengan backend yang dijamin oleh permit, membina aplikasi edtech SaaS yang berfungsi menggunakan Next.Js. Frontend mengambil kebenaran pengguna untuk mengawal penglihatan UI dan memastikan permintaan API mematuhi dasar peranan

JavaScript: meneroka serba boleh bahasa webJavaScript: meneroka serba boleh bahasa webApr 11, 2025 am 12:01 AM

JavaScript adalah bahasa utama pembangunan web moden dan digunakan secara meluas untuk kepelbagaian dan fleksibiliti. 1) Pembangunan front-end: Membina laman web dinamik dan aplikasi satu halaman melalui operasi DOM dan kerangka moden (seperti React, Vue.js, sudut). 2) Pembangunan sisi pelayan: Node.js menggunakan model I/O yang tidak menyekat untuk mengendalikan aplikasi konkurensi tinggi dan masa nyata. 3) Pembangunan aplikasi mudah alih dan desktop: Pembangunan silang platform direalisasikan melalui reaktnatif dan elektron untuk meningkatkan kecekapan pembangunan.

Evolusi JavaScript: Trend Semasa dan Prospek Masa DepanEvolusi JavaScript: Trend Semasa dan Prospek Masa DepanApr 10, 2025 am 09:33 AM

Trend terkini dalam JavaScript termasuk kebangkitan TypeScript, populariti kerangka dan perpustakaan moden, dan penerapan webassembly. Prospek masa depan meliputi sistem jenis yang lebih berkuasa, pembangunan JavaScript, pengembangan kecerdasan buatan dan pembelajaran mesin, dan potensi pengkomputeran IoT dan kelebihan.

Demystifying JavaScript: Apa yang berlaku dan mengapa pentingDemystifying JavaScript: Apa yang berlaku dan mengapa pentingApr 09, 2025 am 12:07 AM

JavaScript adalah asas kepada pembangunan web moden, dan fungsi utamanya termasuk pengaturcaraan yang didorong oleh peristiwa, penjanaan kandungan dinamik dan pengaturcaraan tak segerak. 1) Pengaturcaraan yang didorong oleh peristiwa membolehkan laman web berubah secara dinamik mengikut operasi pengguna. 2) Penjanaan kandungan dinamik membolehkan kandungan halaman diselaraskan mengikut syarat. 3) Pengaturcaraan Asynchronous memastikan bahawa antara muka pengguna tidak disekat. JavaScript digunakan secara meluas dalam interaksi web, aplikasi satu halaman dan pembangunan sisi pelayan, sangat meningkatkan fleksibiliti pengalaman pengguna dan pembangunan silang platform.

Adakah Python atau JavaScript lebih baik?Adakah Python atau JavaScript lebih baik?Apr 06, 2025 am 12:14 AM

Python lebih sesuai untuk sains data dan pembelajaran mesin, manakala JavaScript lebih sesuai untuk pembangunan front-end dan penuh. 1. Python terkenal dengan sintaks ringkas dan ekosistem perpustakaan yang kaya, dan sesuai untuk analisis data dan pembangunan web. 2. JavaScript adalah teras pembangunan front-end. Node.js menyokong pengaturcaraan sisi pelayan dan sesuai untuk pembangunan stack penuh.

Bagaimana saya memasang javascript?Bagaimana saya memasang javascript?Apr 05, 2025 am 12:16 AM

JavaScript tidak memerlukan pemasangan kerana ia sudah dibina dalam pelayar moden. Anda hanya memerlukan editor teks dan penyemak imbas untuk memulakan. 1) Dalam persekitaran penyemak imbas, jalankan dengan memasukkan fail HTML melalui tag. 2) Dalam persekitaran Node.js, selepas memuat turun dan memasang node.js, jalankan fail JavaScript melalui baris arahan.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft