작동 방식 :
드래프트 생성 : 더 작고 빠른 모델 (예 : gemma2-2b-it)은 다중 잠재적 토큰 시퀀스를 생성합니다. 병렬 검증 :
더 큰 모델 (예 : gemma2-9b-it)은 이러한 서열을 동시에 평가하고 정확한 예측을 받아들이고 부정확 한 것들을 수정합니다.
최종 출력 :
전통적인 디코딩과의 비교 : 전통적인 디코딩은 토큰을 순차적으로 생성하여 응답 시간이 느려집니다. 대조적으로 투기 디코딩은 상당한 속도 개선 (30-40%)을 제공하여 대기 시간을 약 25-30 초에서 15-18 초로 줄입니다. 또한 메모리 사용량 (요구 사항을 26GB에서 약 14GB로 줄임)을 최적화하고 컴퓨팅 요구를 낮추는 데 도움이됩니다 (50%).
gemma2 모델을 사용한 실제 구현 :위 내용은 투기 디코딩 : 구현 예제가있는 안내서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!