Genai: Comment réduire les coûts avec des techniques de compression rapides-Industrie informatique-php.cn

Maison

Périphériques technologiques

Industrie informatique

Genai: Comment réduire les coûts avec des techniques de compression rapides

Joseph Gordon-Levitt

Feb 08, 2025 am 11:07 AM

Cet article explore des techniques de compression rapides pour réduire les coûts d'exploitation des applications Genai. L'IA générative utilise souvent une génération auprès de la récupération (RAG) et une ingénierie rapide, mais cela peut devenir coûteux à grande échelle. La compression rapide minimise les données envoyées aux fournisseurs de modèles comme OpenAI ou Google Gemini.

GenAI: How to Reduce Cost with Prompt Compression Techniques

Prise des clés:

La compression rapide réduit considérablement les coûts opérationnels du Genai.
L'ingénierie rapide efficace améliore la qualité de la production tout en réduisant les coûts.
La compression rationalise la communication, la réduction des coûts de charge de calcul et de déploiement.
outils comme Microsoft Llmlingua et le contexte sélectif Optimiser et comprimer des invites à des économies importantes.
Les défis incluent la perte de contexte potentielle, la complexité des tâches, les besoins de connaissances spécifiques au domaine et l'équilibrage de la compression avec les performances. Des stratégies robustes et personnalisées sont cruciales.

Défis de coût de l'application Genai basés sur le chiffon:

Rag, en utilisant une base de données vectorielle pour augmenter le contexte LLM, augmentant de manière inattendue les coûts de production. L'envoi de grandes quantités de données (par exemple, l'historique de chat entier) pour chaque interaction utilisateur avec OpenAI s'est avéré coûteux. Cela a été particulièrement perceptible dans les chats de questions et réponses générant du contenu personnalisé (plans de fitness, recommandations de recettes). Le défi était d'équilibrer un contexte suffisant avec le contrôle des coûts.

Résolution des coûts croissants du pipeline de chiffon:

L'ingénierie rapide, l'élaboration de requêtes précises pour obtenir des réponses optimales LLM, était essentielle. La compression provoque, la distillation invite aux éléments essentiels, ce qui a encore réduit les coûts. Cette communication rationalisée, réduisant les frais de calcul et les coûts de déploiement. L'utilisation d'outils et d'invites de réécriture a produit des économies de coûts importantes (jusqu'à 75%). L'outil de tokenizer d'Openai a aidé à affiner la longueur de l'invite.

Exemples d'invites:

Original: "Planifier un voyage en Italie, visiter des sites historiques et profiter de la cuisine locale. Énumérez les meilleurs sites historiques et les plats traditionnels."
COMPRIMÉ: "Italie Trip: Top Historical Sites and Traditional Dishes."
Original: "Besoin d'une recette de dîner végétarienne saine avec tomates, épinards, pois chiches, prêts en moins d'une heure. Suggestions?"
Compressé: "Recette végétarienne rapide et saine (tomates, épinards, pois chiches). Suggestions?"

Comprendre la compression rapide:

Les invites efficaces sont cruciales pour les applications d'entreprise, mais de longues invites augmentent les coûts. La compression rapide réduit la taille des entrées en supprimant les informations inutiles, en abaissant la charge de calcul et le coût par requête. Il s'agit d'identifier les éléments clés (mots-clés, entités, phrases) et ne conserver que ceux-ci. Les avantages incluent une charge de calcul réduite, une meilleure rentabilité, une efficacité accrue et une meilleure évolutivité.

Défis de la compression rapide:

Perte de contexte potentielle
Complexité des tâches
Exigences de connaissances spécifiques au domaine
Équilibrer la compression et les performances

Outils pour la compression rapide:

Microsoft LlMlingua: Une boîte à outils Optimiser les sorties LLM, y compris la compression rapide. Il utilise un modèle de langue plus petit pour identifier et éliminer les mots inutiles, réalisant une compression significative avec une perte de performance minimale.

GenAI: How to Reduce Cost with Prompt Compression Techniques

Contexte sélectif: Un cadre axé sur l'inclusion du contexte sélectif pour des invites concises et informatives. Il analyse les invites à conserver des informations essentielles, améliorant les performances et l'efficacité de la LLM.
Modèles GPT d'OpenAI: La résumé manuel ou des outils comme le contexte sélectif peuvent compresser les invites pour les modèles OpenAI, en maintenant la précision tout en réduisant le nombre de jetons. Des exemples d'invites compressées pour les modèles GPT sont fournies.

Conclusion:

La compression rapide améliore considérablement l'efficacité de l'application LLM et la rentabilité. Microsoft Llmlingua et le contexte sélectif offrent de puissants outils d'optimisation. Le choix du bon outil dépend des besoins en application. La compression rapide est vitale pour les interactions LLM efficaces et efficaces, entraînant des économies de coûts et une amélioration des performances d'application Genai basées sur les chiffons. Pour les modèles OpenAI, des techniques NLP simples combinées à ces outils sont efficaces.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semainesByDDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semainesByDDD

Nordhold: Système de fusion, expliqué

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Blue Prince: Comment se rendre au sous-sol

1 Il y a quelques moisByDDD

Afficher plus

Outils chauds

Version Mac de WebStorm

Outils de développement JavaScript utiles

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Dreamweaver CS6

Outils de développement Web visuel

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Afficher plus

Sujets chauds

1664

1423

1318

1269

1248