recherche
MaisonPériphériques technologiquesIATutoriel GPT-4O et Langgraph: Créez une application TNT-LLM

TNT-LLM de Microsoft: Révolution de la production de taxonomie et de la classification du texte

Microsoft a dévoilé TNT-llm, un système révolutionnaire automatisant la création de taxonomie et la classification du texte, dépassant les méthodes traditionnelles à la fois en vitesse et en précision. Cette approche innovante tire parti de la puissance des modèles de grande langue (LLM) pour rationaliser et mettre à l'échelle la génération de taxonomies et de classificateurs, minimisant l'intervention manuelle. Ceci est particulièrement bénéfique pour les applications comme Bing Copilot, où la gestion des données textuelles dynamiques et diverses est primordiale.

Cet article démontre l'implémentation de TNT-llm à l'aide de GPT-4O et Langgraph pour un regroupement d'articles de presse efficace. Pour plus d'informations sur GPT-4O et Langgraph, consultez ces ressources:

  • Qu'est-ce que le GPT-4O d'Openai?
  • Tutoriel API GPT-4O: Président avec API d'Openai
  • Tutoriel Langgraph: Qu'est-ce que Langgraph et comment l'utiliser?

Le document de recherche TNT-LLM original, "TNT-LLM: Minage de texte à grande échelle avec de grands modèles de langage", fournit des détails complets sur le système.

Comprendre tnt-llm

TNT-LLM (Taxonomie et classification de texte à l'aide de modèles de langage grand) est un framework en deux étapes conçu pour générer et classer les taxonomies à partir de données textuelles.

Phase 1: Génération de taxonomie

Cette phase initiale utilise un échantillon de documents texte et une instruction spécifique (par exemple, "générer une taxonomie pour cluster des articles de presse"). Un LLM résume chaque document, extraitant des informations clés. Grâce à un raffinement itératif, le LLM construit, modifie et affine la taxonomie, résultant en une hiérarchie structurée des étiquettes et des descriptions pour une catégorisation d'articles de presse efficace.

GPT-4o and LangGraph Tutorial: Build a TNT-LLM Application

Source: Mengting Wan et al.

Phase 2: Classification du texte

La deuxième phase utilise la taxonomie générée pour étiqueter un ensemble de données plus large. Le LLM applique ces étiquettes, créant des données de formation pour un classificateur léger (comme la régression logistique). Ce classificateur formé étiquette efficacement l'ensemble de données ou effectue une classification en temps réel.

GPT-4o and LangGraph Tutorial: Build a TNT-LLM Application

Source: Mengting Wan et al.

La nature adaptable de TNT-llm le rend adapté à diverses tâches de classification de texte, y compris la détection d'intention et la catégorisation des sujets.

Avantages de tnt-llm

TNT-LLM offre des avantages significatifs pour l'extraction et la classification de texte à grande échelle:

  • Génération de taxonomie automatisée: automatise la création de taxonomies détaillées et interprétables à partir de texte brut, éliminant la nécessité d'un effort manuel étendu et d'une expertise du domaine.
  • Classification évolutive: Permet efficacement la classification de texte évolutive à l'aide de modèles légers qui gèrent de grands ensembles de données et une classification en temps réel.
  • Effectif-efficacité: optimise l'utilisation des ressources grâce à l'utilisation de LLM à plusieurs niveaux (par exemple, GPT-4 pour la production de taxonomie, GPT-3.5-turbo pour le résumé et la régression logistique pour la classification finale).
  • Sorties de haute qualité: La production de taxonomie itérative garantit des catégorisations de haute qualité, pertinentes et précises.
  • Intervention humaine minimale: réduit l'entrée manuelle, minimisant les biais et les incohérences potentielles.
  • Flexibilité: s'adapte à diverses tâches et domaines de classification de texte, soutenant l'intégration avec divers LLM, méthodes d'intégration et classificateurs.

Implémentation de tnt-llm

Un guide d'implémentation étape par étape suit:

Installation:

Installez les packages nécessaires:

pip install langgraph langchain langchain_openai

Définir les variables d'environnement pour les clés API et les noms de modèle:

export AZURE_OPENAI_API_KEY='your_api_key_here'
export AZURE_OPENAI_MODEL='your_deployment_name_here'
export AZURE_OPENAI_ENDPOINT='deployment_endpoint'

Concepts de base:

  • Documents: Données de texte brutes (articles, journaux de chat) structurés à l'aide de la classe Doc.
  • Taxonomies: Clusters d'intentions ou de sujets classés, gérés par la classe TaxonomyGenerationState.

Construire une application TNT-llm simple:

Les sections suivantes détaillent les étapes d'implémentation, en utilisant des extraits de code pour illustrer les processus clés. En raison de la durée du code d'origine, une reproduction complète ici n'est pas pratique. Cependant, ce qui suit donne un aperçu structuré du processus:

  • Étape 0: Définissez la classe d'état du graphique, chargez des ensembles de données et initialisez GPT-4O: Cela implique de définir les structures de données et de charger l'ensemble de données d'articles d'information. Un modèle GPT-4O est initialisé pour une utilisation tout au long du pipeline.

  • Étape 1: résumer les documents: Chaque document est résumé à l'aide d'une invite LLM.

  • Étape 2: Créer des minibatches: Les documents résumés sont divisés en minibatchs pour le traitement parallèle.

  • Étape 3: Générer la taxonomie initiale: Une taxonomie initiale est générée à partir du premier minibatch.

  • Étape 4: Mettez à jour la taxonomie: La taxonomie est mise à jour itérativement lorsque les minibatches suivantes sont traitées.

  • Étape 5: Revoir la taxonomie: La taxonomie finale est examinée pour l'exactitude et la pertinence.

  • Étape 6: Orchestrer le pipeline TNT-LLM avec Stategraph: Un StateGraph orchestre l'exécution des différentes étapes.

  • Étape 7: regroupement et affichage de l'article de presse de TNT-llm Taxonomie: La taxonomie finale est affichée, montrant les grappes d'articles de presse.

Conclusion

TNT-llm offre une solution puissante et efficace pour l'exploitation et la classification de texte à grande échelle. Ses capacités d'automatisation réduisent considérablement le temps et les ressources nécessaires pour analyser les données de texte non structurées, permettant la prise de décision basée sur les données dans divers domaines. Le potentiel de développement et d'applications entre les industries est substantiel. Pour ceux qui s'intéressent au développement des applications LLM, un cours sur "Developing LLM Applications with Langchain" est recommandé.

GPT-4o and LangGraph Tutorial: Build a TNT-LLM Application GPT-4o and LangGraph Tutorial: Build a TNT-LLM Application

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
La Californie tape AI pour accélérer les permis de récupération des incendies de forêtLa Californie tape AI pour accélérer les permis de récupération des incendies de forêtMay 04, 2025 am 11:10 AM

L'IA rationalise la récupération des incendies de forêt Le logiciel AI de la société de technologie australienne Archistar, utilisant l'apprentissage automatique et la vision par ordinateur, automatise l'évaluation des plans de construction de conformité aux réglementations locales. Cette signification de pré-validation

Ce que les États-Unis peuvent apprendre du gouvernement numérique propulsé par l'IA de l'EstonieCe que les États-Unis peuvent apprendre du gouvernement numérique propulsé par l'IA de l'EstonieMay 04, 2025 am 11:09 AM

Le gouvernement numérique de l'Estonie: un modèle pour les États-Unis? Les États-Unis luttent contre les inefficacités bureaucratiques, mais l'Estonie offre une alternative convaincante. Cette petite nation possède un gouvernement de près de 100% numérisé et centré sur les citoyens alimentés par l'IA. Ce n'est pas

Planification du mariage via une IA générativePlanification du mariage via une IA générativeMay 04, 2025 am 11:08 AM

Planifier un mariage est une tâche monumentale, souvent écrasante même les couples les plus organisés. Cet article, qui fait partie d'une série Forbes en cours sur l'impact de l'IA (voir le lien ici), explore comment l'IA génératrice peut révolutionner la planification de mariage. Le mariage PL

Que sont les agents de l'IA de la défense numérique?Que sont les agents de l'IA de la défense numérique?May 04, 2025 am 11:07 AM

Les entreprises exploitent de plus en plus les agents de l'IA pour les ventes, tandis que les gouvernements les utilisent pour diverses tâches établies. Cependant, les défenseurs des consommateurs mettent en évidence la nécessité pour les individus de posséder leurs propres agents d'IA comme une défense contre les

Guide d'un chef d'entreprise sur l'optimisation générative du moteur (GEO)Guide d'un chef d'entreprise sur l'optimisation générative du moteur (GEO)May 03, 2025 am 11:14 AM

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

Cette startup utilise des agents d'IA pour lutterCette startup utilise des agents d'IA pour lutterMay 03, 2025 am 11:13 AM

En 2022, il a fondé la startup de défense de l'ingénierie sociale Doppel pour faire exactement cela. Et alors que les cybercriminels exploitent des modèles d'IA de plus en plus avancés pour turbuler leurs attaques, les systèmes d'IA de Doppel ont aidé les entreprises à les combattre à grande échelle - plus rapidement et

Comment les modèles mondiaux sont radicalement remodeler l'avenir de l'IA génératrice et des LLMComment les modèles mondiaux sont radicalement remodeler l'avenir de l'IA génératrice et des LLMMay 03, 2025 am 11:12 AM

Le tour est joué, via l'interaction avec les modèles mondiaux appropriés, l'IA et les LLM génératives peuvent être considérablement stimulées. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris

Mai Jour 2050: Qu'avons-nous laissé pour célébrer?Mai Jour 2050: Qu'avons-nous laissé pour célébrer?May 03, 2025 am 11:11 AM

La fête du Travail 2050. Les parcs à travers le pays se remplissent de familles bénéficiant de barbecues traditionnelles tandis que les défilés nostalgiques vont dans les rues de la ville. Pourtant, la célébration porte désormais une qualité de musée - une reconstitution historique plutôt que la commémoration de C

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),