


Cet article explore des techniques de compression rapides pour réduire les coûts d'exploitation des applications Genai. L'IA générative utilise souvent une génération auprès de la récupération (RAG) et une ingénierie rapide, mais cela peut devenir coûteux à grande échelle. La compression rapide minimise les données envoyées aux fournisseurs de modèles comme OpenAI ou Google Gemini.
Prise des clés:
- La compression rapide réduit considérablement les coûts opérationnels du Genai.
- L'ingénierie rapide efficace améliore la qualité de la production tout en réduisant les coûts.
- La compression rationalise la communication, la réduction des coûts de charge de calcul et de déploiement.
- outils comme Microsoft Llmlingua et le contexte sélectif Optimiser et comprimer des invites à des économies importantes.
- Les défis incluent la perte de contexte potentielle, la complexité des tâches, les besoins de connaissances spécifiques au domaine et l'équilibrage de la compression avec les performances. Des stratégies robustes et personnalisées sont cruciales.
Défis de coût de l'application Genai basés sur le chiffon:
Rag, en utilisant une base de données vectorielle pour augmenter le contexte LLM, augmentant de manière inattendue les coûts de production. L'envoi de grandes quantités de données (par exemple, l'historique de chat entier) pour chaque interaction utilisateur avec OpenAI s'est avéré coûteux. Cela a été particulièrement perceptible dans les chats de questions et réponses générant du contenu personnalisé (plans de fitness, recommandations de recettes). Le défi était d'équilibrer un contexte suffisant avec le contrôle des coûts.
Résolution des coûts croissants du pipeline de chiffon:
L'ingénierie rapide, l'élaboration de requêtes précises pour obtenir des réponses optimales LLM, était essentielle. La compression provoque, la distillation invite aux éléments essentiels, ce qui a encore réduit les coûts. Cette communication rationalisée, réduisant les frais de calcul et les coûts de déploiement. L'utilisation d'outils et d'invites de réécriture a produit des économies de coûts importantes (jusqu'à 75%). L'outil de tokenizer d'Openai a aidé à affiner la longueur de l'invite.
Exemples d'invites:
-
Original: "Planifier un voyage en Italie, visiter des sites historiques et profiter de la cuisine locale. Énumérez les meilleurs sites historiques et les plats traditionnels."
-
COMPRIMÉ: "Italie Trip: Top Historical Sites and Traditional Dishes."
-
Original: "Besoin d'une recette de dîner végétarienne saine avec tomates, épinards, pois chiches, prêts en moins d'une heure. Suggestions?"
-
Compressé: "Recette végétarienne rapide et saine (tomates, épinards, pois chiches). Suggestions?"
Comprendre la compression rapide:
Les invites efficaces sont cruciales pour les applications d'entreprise, mais de longues invites augmentent les coûts. La compression rapide réduit la taille des entrées en supprimant les informations inutiles, en abaissant la charge de calcul et le coût par requête. Il s'agit d'identifier les éléments clés (mots-clés, entités, phrases) et ne conserver que ceux-ci. Les avantages incluent une charge de calcul réduite, une meilleure rentabilité, une efficacité accrue et une meilleure évolutivité.
Défis de la compression rapide:
- Perte de contexte potentielle
- Complexité des tâches
- Exigences de connaissances spécifiques au domaine
- Équilibrer la compression et les performances
Outils pour la compression rapide:
- Microsoft LlMlingua: Une boîte à outils Optimiser les sorties LLM, y compris la compression rapide. Il utilise un modèle de langue plus petit pour identifier et éliminer les mots inutiles, réalisant une compression significative avec une perte de performance minimale.
-
Contexte sélectif: Un cadre axé sur l'inclusion du contexte sélectif pour des invites concises et informatives. Il analyse les invites à conserver des informations essentielles, améliorant les performances et l'efficacité de la LLM.
-
Modèles GPT d'OpenAI: La résumé manuel ou des outils comme le contexte sélectif peuvent compresser les invites pour les modèles OpenAI, en maintenant la précision tout en réduisant le nombre de jetons. Des exemples d'invites compressées pour les modèles GPT sont fournies.
Conclusion:
La compression rapide améliore considérablement l'efficacité de l'application LLM et la rentabilité. Microsoft Llmlingua et le contexte sélectif offrent de puissants outils d'optimisation. Le choix du bon outil dépend des besoins en application. La compression rapide est vitale pour les interactions LLM efficaces et efficaces, entraînant des économies de coûts et une amélioration des performances d'application Genai basées sur les chiffons. Pour les modèles OpenAI, des techniques NLP simples combinées à ces outils sont efficaces.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Restez informé des dernières tendances technologiques avec ces meilleurs bulletins de développeur! Cette liste organisée offre quelque chose pour tout le monde, des amateurs d'IA aux développeurs assaisonnés du backend et du frontend. Choisissez vos favoris et gagnez du temps à la recherche de rel

Ce tutoriel vous guide dans la création d'un pipeline de traitement d'image sans serveur à l'aide de services AWS. Nous allons créer un frontend Next.js déployé sur un cluster ECS Fargate, en interagissant avec une passerelle API, des fonctions lambda, des seaux S3 et DynamoDB. Ème

Ce programme pilote, une collaboration entre le CNCF (Cloud Native Computing Foundation), Ampere Computing, Equinix Metal et ACTUTIE, rationalise ARM64 CI / CD pour les projets GitHub CNCF. L'initiative répond aux problèmes de sécurité et aux performances LIM


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Version Mac de WebStorm
Outils de développement JavaScript utiles

Version crackée d'EditPlus en chinois
Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

mPDF
mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Dreamweaver CS6
Outils de développement Web visuel

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.
