Tirer parti des incorporations de texte avec l'API OpenAI: un guide pratique-IA-php.cn

Maison

Périphériques technologiques

Tirer parti des incorporations de texte avec l'API OpenAI: un guide pratique

Lisa Kudrow

Mar 11, 2025 am 09:19 AM

Les incorporations de texte sont une pierre angulaire du traitement du langage naturel (NLP), fournissant des représentations numériques du texte où les mots ou les phrases deviennent des vecteurs denses de nombres réels. Cela permet aux machines de comprendre le sens sémantique et les relations entre les mots, améliorant considérablement leur capacité à traiter le langage humain.

Ces intérêts sont essentiels pour les tâches comme la classification du texte, la recherche d'informations et la détection de similitude sémantique. OpenAI recommande le modèle ADA V2 pour les créer, en tirant parti de la force de la série GPT en capturant la signification contextuelle et les associations dans le texte.

Avant de procéder, la familiarité avec l'API d'Openai et le package Openai Python est supposé (voir "Utilisation de GPT-3.5 et GPT-4 via l'API OpenAI dans Python" pour l'orientation). La compréhension du clustering, en particulier les K-means, est également utile (consultez "Introduction à K-means clustering with Scikit-Learn in Python").

Applications de trouver des applications de texte:

Embeddings text Identification.

Récupération d'informations: Récupération des informations pertinentes pour une requête spécifique, imitant la fonctionnalité des moteurs de recherche.

Détection de similitude sémantique: Identification et quantifier la similitude sémantique entre les extraits de texte.

Génération de texte: Génération de texte plus cohérent et contextuellement pertinent.

Traduction machine: Amélioration de la qualité de la traduction automatique en capturant la signification sémantique croisée. openai , scipy.spatial.distance , sklearn.cluster.kmeans , et umap.umap . Installez-les en utilisant:

 pip install -u openai scipy trotly-express scikit-learn umap-learn  Pre> <p> Importer les bibliothèques requises: </p> <pre class="brush:php;toolbar:false"> Importer OS Importer Openai à partir de scipy.spatial Import Distance Importer Plotly.express Clé:  <pre class="brush:php;toolbar:false"> openai.api_key = "<your_api_key_here>" </your_api_key_here>

(n'oubliez pas de remplacer code> par votre clé réelle.)

Text-Embedding-ADA-002 Modèle pour générer des intégres:

 def get_emedding (text_to_embed): réponse = openai.embedding.create (modèle = "text-embedding-ada-002", entrée = [text_to_embed]) Embelling = Response ["Data"] [0] ["" a effacé "] Erembedd <p> <strong> ensemble de données et analyse: </strong> </p> <p> Cet exemple utilise le jeu de données de revue de l'instrument de musique Amazon (disponible sur Kaggle ou le github de l'auteur). Pour l'efficacité, un échantillon de 100 avis est utilisé. </p> <pre class="brush:php;toolbar:false"> Importer des pandas en tant que pd data_url = "https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/musical_instruments_reviews.csv" revue_df = pd.read_csv (data_url) [» review_df.sample(100) review_df["embedding"] = review_df["reviewText"].astype(str).apply(get_embedding) review_df.reset_index(drop=True, inplace=True)

Semantic Similarity:

The Euclidean distance, calculated using scipy.spatial.distance.pdist () , mesure la similitude entre les intégres de revue. Des distances plus petites indiquent une plus grande similitude.

Analyse de grappes (k-means):

k-means grouping groupes revues similaires. Ici, trois clusters sont utilisés:

 kmeans = kmeans (n_clusters = 3) kmeans.fit (revue_df ["embedding"]. Tolist ())

réduction de la dimensionnalité (UMAP): UMAP () embeddings_2d = reducer.fit_transform (revue_df ["embedding"]. Tolist ())

visualisation:

un tracé de diffusion visualise les clusters:

 fig = px.scatter (x = embeddings_2d [:,, 0], y = embeddings_2d. color = kmeans.labels_) Fig.show ()  pre> <p> <img src="https://img.php.cn/upload/article/000/000/000/174165595784565.jpg" alt="TEXTACKET TEXT ENTROVES avec l'Openai API: un guide pratique"> </p><p> </p><p> </p><p> Exploration:  </p> <p> Pour l'apprentissage avancé, explorez les ressources de DataCamp sur le GPT-3 à réglage fin et la feuille de triche de l'API OpenAI. </p> <p> Les exemples de code sont présentés de manière plus concise et organisée, améliorant la lisibilité et la compréhension. L'image est incluse comme demandé. </p>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Microsoft Work Trend Index 2025 montre une souche de capacité de travailApr 24, 2025 am 11:19 AM

La crise de la capacité en plein essor sur le lieu de travail, exacerbé par l'intégration rapide de l'IA, exige un changement stratégique au-delà des ajustements progressifs. Ceci est souligné par les conclusions de la WTI: 68% des employés ont du mal avec la charge de travail, ce qui mène à Bur

L'IA peut-elle comprendre? L'argument de la salle chinoise dit non, mais est-ce vrai?Apr 24, 2025 am 11:18 AM

Argument de la salle chinoise de John Searle: un défi à la compréhension de l'IA L'expérience de pensée de Searle se demande directement si l'intelligence artificielle peut vraiment comprendre la langue ou posséder une véritable conscience. Imaginez une personne, ignorant des chines

Les assistants de l'IA «intelligents» de la Chine font écho aux défauts de confidentialité de Microsoft RappelApr 24, 2025 am 11:17 AM

Les géants de la technologie chinoise tracent un cours différent dans le développement de l'IA par rapport à leurs homologues occidentaux. Au lieu de se concentrer uniquement sur les références techniques et les intégrations API, ils privilégient les assistants de l'IA "Ai-Ai" - AI T

Docker apporte un flux de travail de conteneur familier aux modèles AI et aux outils MCPApr 24, 2025 am 11:16 AM

MCP: Empower les systèmes AI pour accéder aux outils externes Le protocole de contexte du modèle (MCP) permet aux applications d'IA d'interagir avec des outils externes et des sources de données via des interfaces standardisées. Développé par anthropique et soutenu par les principaux fournisseurs d'IA, MCP permet aux modèles de langue et aux agents de découvrir des outils disponibles et de les appeler avec des paramètres appropriés. Cependant, il existe certains défis dans la mise en œuvre des serveurs MCP, y compris les conflits environnementaux, les vulnérabilités de sécurité et le comportement multiplateforme incohérent. L'article de Forbes "Le protocole de contexte du modèle d'Anthropic est une grande étape dans le développement des agents de l'IA", auteur: Janakiram Msvdocker résout ces problèmes par la conteneurisation. Doc construit sur l'infrastructure Docker Hub

Utilisation de 6 stratégies intelligentes de rue AI pour construire une startup d'un milliard de dollarsApr 24, 2025 am 11:15 AM

Six stratégies employées par des entrepreneurs visionnaires qui ont exploité des technologies de pointe et un sens des affaires astucieux pour créer des entreprises très rentables et évolutives tout en gardant le contrôle. Ce guide est destiné aux aspirants entrepreneurs visant à construire un

Google Photos Update déverrouille Superbe Ultra HDR pour toutes vos photosApr 24, 2025 am 11:14 AM

Le nouvel outil Ultra HDR de Google Photos: un changeur de jeu pour l'amélioration de l'image Google Photos a introduit un puissant outil de conversion Ultra HDR, transformant des photos standard en images vibrantes et à grande échelle. Cette amélioration profite aux photographes

Descope construit un cadre d'authentification pour l'intégration des agents AIApr 24, 2025 am 11:13 AM

L'architecture technique résout les défis d'authentification émergents Le centre d'identité agentique aborde un problème que de nombreuses organisations ne découvrent que après avoir commencé à mettre en œuvre l'agent d'IA que les méthodes d'authentification traditionnelles ne sont pas conçues pour la machine.

Google Cloud prochain 2025 et l'avenir connecté du travail moderneApr 24, 2025 am 11:12 AM

(Remarque: Google est un client consultatif de mon entreprise, Moor Insights & Strategy.) AI: de l'expérience à la fondation d'entreprise Google Cloud Next 2025 a présenté l'évolution de l'IA de la fonctionnalité expérimentale à un composant central de la technologie d'entreprise, Stream

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semainesByDDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semainesByDDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semainesByDDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques moisByDDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques moisByDDD

Afficher plus

Outils chauds

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7696

1640

1393

1287

1229