소개
이 블로그는 작업을 완료하기 위해 수행한 단계를 단계별로 수행할 수 있었던 다른 블로그와 같지 않습니다. 대신 이것은 내 프로젝트 gimme_readme에 테스트를 추가하는 동안 직면한 문제와 그 과정에서 LLM 기반 애플리케이션을 테스트하는 방법에 대해 배운 내용을 반영한 것입니다.
맥락
이번 주에 오픈 소스 개발 반 친구들과 저는 LLM(대형 언어 모델)을 통합하는 명령줄 도구에 테스트를 추가하는 임무를 받았습니다. 처음에는 간단해 보였지만 예상하지 못한 복잡한 테스트라는 토끼굴에 빠지게 되었습니다.
나의 테스트 여정
초기 접근 방식
처음 gimme_readme를 빌드했을 때 Jest.js를 사용하여 몇 가지 기본 테스트를 추가했습니다. 이 테스트는 매우 간단했으며 주로 다음에 중점을 두었습니다.
- 함수 출력 확인
- 기본 오류 처리 확인
- 간단한 유틸리티 기능 테스트
이러한 테스트는 어느 정도 적용 범위를 제공했지만 지원서의 가장 중요한 부분 중 하나인 LLM 상호 작용을 테스트하지는 않았습니다.
과제: LLM 상호 작용 테스트
보다 포괄적인 테스트를 추가하려고 시도하면서 내 응용 프로그램이 LLM과 통신하는 방식에 대한 흥미로운 사실을 깨달았습니다. 처음에는 Nock.js를 사용하여 이러한 언어 모델에 대한 HTTP 요청을 모의할 수 있다고 생각했습니다. 결국 Nock은 테스트를 위해 HTTP 요청을 가로채고 조롱하는 일을 훌륭하게 수행합니다.
그런데 LLM을 사용하는 방식 때문에 Nock을 사용하여 테스트를 작성하는 것이 어렵다는 것을 알게 되었습니다.
SDK와 직접 HTTP 요청 딜레마
여기서 흥미로운 점이 있습니다. 내 애플리케이션은 Google의 Gemini 및 Groq와 같은 LLM 서비스에서 제공하는 공식 SDK 클라이언트를 사용합니다. 이러한 SDK는 배후에서 모든 HTTP 통신을 처리하는 추상화 계층 역할을 합니다. 이렇게 하면 프로덕션 환경에서 코드가 더 깔끔하고 작업하기 쉬워지지만 흥미로운 테스트 문제가 발생합니다.
LLM 기능을 구현하려면 다음 두 가지 접근 방식을 고려하세요.
// Approach 1: Using SDK const groq = new Groq({ apiKey }); const response = await groq.chat.completions.create({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }); // Approach 2: Direct HTTP requests const response = await fetch('https://api.groq.com/v1/completions', { method: 'POST', headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' }, body: JSON.stringify({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }) });
SDK 접근 방식은 더 깨끗하고 더 나은 개발자 경험을 제공하지만 Nock과 같은 기존 HTTP 모의 도구의 유용성은 떨어집니다. HTTP 요청은 SDK 내부에서 발생하므로 Nock을 사용하여 가로채기
하기가 더 어렵습니다.배운 교훈
초기 테스트 전략 고려: SDK와 직접 HTTP 요청 중에서 선택할 때 구현 테스트 방법을 고려하세요. 때로는 "더 깔끔한" 프로덕션 코드로 인해 테스트가 더 어려워질 수 있습니다.
-
SDK 테스트에는 다양한 도구가 필요합니다: SDK를 사용할 때는 HTTP 수준이 아닌 SDK 수준에서 모의해야 합니다. 이는 다음을 의미합니다.
- 전체 SDK 클라이언트 모의
- HTTP 요청보다는 SDK의 인터페이스에 집중
- HTTP 인터셉터 대신 Jest의 모듈 모의 기능 사용
편의성과 테스트 가능성의 균형: SDK는 훌륭한 개발자 경험을 제공하지만 특정 테스트 접근 방식을 더 어렵게 만들 수 있습니다. 애플리케이션을 설계할 때 이러한 절충안을 고려해 볼 가치가 있습니다.
앞으로
아직 테스트 과제를 완전히 해결하지는 못했지만 이 경험을 통해 SDK를 통해 외부 서비스에 의존하는 애플리케이션 테스트에 대한 귀중한 교훈을 얻었습니다. 유사한 애플리케이션을 구축하는 사람에게는 다음을 권장합니다.
- SDK와 직접 API 호출 중에서 선택할 때 테스트 전략을 고려하세요
- SDK를 사용하는 경우 HTTP 수준이 아닌 SDK 수준에서 모의하도록 계획하세요
- SDK 주위에 얇은 래퍼를 작성하여 테스트 가능성을 높이는 것을 고려하세요
- 프로젝트에 참여하는 다른 사람들을 위해 테스트 접근 방식을 문서화하세요
결론
LLM 애플리케이션 테스트는 특히 SDK와 같은 현대적인 개발 편의성과 철저한 테스트의 필요성 사이의 균형을 맞출 때 독특한 과제를 제시합니다. gimme_readme의 테스트 적용 범위를 개선하기 위해 계속 노력하고 있는 동안, 이 경험을 통해 외부 서비스 및 SDK가 포함된 향후 프로젝트에서 테스트에 접근하는 방법을 더 잘 이해할 수 있게 되었습니다.
LLM SDK를 사용하는 애플리케이션을 테스트할 때 비슷한 문제를 겪은 사람이 있습니까? 댓글로 여러분의 경험과 해결책을 듣고 싶습니다!
위 내용은 LLM 애플리케이션 테스트: 모의 SDK와 직접 HTTP 요청의 오해의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

JavaScript 문자열 교체 방법 및 FAQ에 대한 자세한 설명 이 기사는 JavaScript에서 문자열 문자를 대체하는 두 가지 방법 인 내부 JavaScript 코드와 웹 페이지의 내부 HTML을 탐색합니다. JavaScript 코드 내부의 문자열을 교체하십시오 가장 직접적인 방법은 대체 () 메소드를 사용하는 것입니다. str = str.replace ( "find", "replace"); 이 메소드는 첫 번째 일치 만 대체합니다. 모든 경기를 교체하려면 정규 표현식을 사용하고 전역 플래그 g를 추가하십시오. str = str.replace (/fi

간단한 자바 스크립트 함수는 날짜가 유효한지 확인하는 데 사용됩니다. 기능 isValidDate (s) { var 비트 = s.split ( '/'); var d = 새로운 날짜 (비트 [2]/'비트 [1]/'비트 [0]); return !! (d && (d.getmonth () 1) == 비트 [1] && d.getDate () == 숫자 (비트 [0]); } //시험 var

이 기사에서는 jQuery를 사용하여 DOM 요소의 내부 마진 및 마진 값, 특히 요소의 외부 마진 및 내부 마진의 특정 위치를 얻고 설정하는 방법에 대해 설명합니다. CSS를 사용하여 요소의 내부 및 외부 마진을 설정할 수는 있지만 정확한 값을 얻는 것이 까다로울 수 있습니다. // 설정 $ ( "div.header"). css ( "margin", "10px"); $ ( "Div.Header"). CSS ( "패딩", "10px"); 이 코드는 생각할 수 있습니다

이 기사는 10 개의 탁월한 jQuery 탭과 아코디언을 탐구합니다. 탭과 아코디언의 주요 차이점은 콘텐츠 패널이 표시되고 숨겨진 방식에 있습니다. 이 10 가지 예를 살펴 보겠습니다. 관련 기사 : 10 JQuery Tab 플러그인

웹 사이트의 역학 및 시각적 매력을 높이기 위해 10 개의 탁월한 jQuery 플러그인을 발견하십시오! 이 선별 된 컬렉션은 이미지 애니메이션에서 대화식 갤러리에 이르기까지 다양한 기능을 제공합니다. 이 강력한 도구를 탐색합시다. 관련 게시물 : 1

HTTP-Console은 HTTP 명령을 실행하기위한 명령 줄 인터페이스를 제공하는 노드 모듈입니다. 웹 서버, 웹 서비스에 대해 만들어 졌는지 여부에 관계없이 HTTP 요청과 함께 어떻게 진행되고 있는지 정확하게 보는 데 유용합니다.

이 튜토리얼은 사용자 정의 Google 검색 API를 블로그 또는 웹 사이트에 통합하는 방법을 보여 주며 표준 WordPress 테마 검색 기능보다보다 세련된 검색 경험을 제공합니다. 놀랍게도 쉽습니다! 검색을 Y로 제한 할 수 있습니다

다음 jQuery 코드 스 니펫은 DIV 내용이 컨테이너 요소 영역을 초과 할 때 스크롤 바를 추가하는 데 사용될 수 있습니다. (데모 없음, FireBug에 직접 복사하십시오) // d = 문서 // w = 창 // $ = jQuery var contentArea = $ (this), wintop = contentArea.scrolltop (), docheight = $ (d) .height (), winheight = $ (w) .height (), divheight = $ ( '#c


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

Dreamweaver Mac版
시각적 웹 개발 도구

PhpStorm 맥 버전
최신(2018.2.1) 전문 PHP 통합 개발 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.
