Maison >développement back-end >Tutoriel Python >Comment effectuer une analyse des données dans Python à l'aide de l'API OpenAI

Comment effectuer une analyse des données dans Python à l'aide de l'API OpenAI

Jennifer Aniston
Jennifer Anistonoriginal
2025-02-10 12:21:10503parcourir

How to Perform Data Analysis in Python Using the OpenAI API

Points de base

  • En utilisant les API Python et OpenAI, les utilisateurs peuvent systématiquement analyser des ensembles de données pour des informations précieuses sans le code trop conçu ou perdre du temps, fournissant une solution universelle pour l'analyse des données.
  • L'API OpenAI et Python peuvent être utilisées pour analyser les fichiers texte (tels que le dernier appel de gains de NVIDIA), en extrayant des informations spécifiées des enregistrements et en les imprimant.
  • L'API OpenAI et Python peuvent également analyser les fichiers CSV (tels que l'ensemble de données d'articles moyens) pour trouver la tonalité globale de chaque message, les leçons / points principaux et le "score d'appât de clic" de 0 à 3 (0 signifie cliquez sur l'appât , 3 signifie un appât de clic extrême).
  • Pour analyser automatiquement plusieurs fichiers, les utilisateurs peuvent les placer dans un dossier, installer la bibliothèque globulaire et utiliser une boucle pour lire le contenu de chaque fichier et enregistrer la sortie de chaque analyse de fichiers sur un milieu de fichier séparé.

Ce tutoriel vous guidera comment utiliser l'API Python et OpenIA pour exploiter et analyser les données.

Analyser manuellement des ensembles de données pour extraire des données utiles, ou même effectuer les mêmes opérations avec un programme simple, peut souvent devenir complexe et prend du temps. Heureusement, avec l'API OpenAI et Python, les ensembles de données peuvent être systématiquement analysés pour des informations intéressantes sans code de conception et perte de temps. Cela peut être utilisé comme solution universelle pour l'analyse des données sans avoir besoin d'utiliser différentes méthodes, bibliothèques et API pour analyser différents types de données et points de données dans les ensembles de données.

Apprenez étape par étape comment analyser vos données à l'aide de l'API OpenAI et Python, tout d'abord, comment la configurer.

Paramètres

Pour utiliser l'API OpenAI pour exploiter et analyser les données via Python, installez les bibliothèques Openai et Pandas:

<code class="language-bash">pip3 install openai pandas</code>

Une fois cela fait, créez un nouveau dossier et créez un fichier python vide dans le nouveau dossier.

Analyser les fichiers texte

Dans ce tutoriel, je pense qu'il serait intéressant de faire analyser Python Analyser Nvidia.

Téléchargez le dernier appel de gains NVIDIA que j'ai obtenu de The Motley Fool et le déplacer dans votre dossier de projet.

Ensuite, ouvrez votre fichier Python vide et ajoutez ce code.

Ce code lit l'enregistrement du rapport financier NVIDIA que vous avez téléchargé et le transmet à la fonction extract_info comme une variable de transcription.

Extract_info La fonction passe des invites et des enregistrements comme entrée utilisateur, ainsi que la température = 0,3 et Model = "GPT-3.5-turbo-16k". La raison pour laquelle il utilise le modèle "GPT-3.5-Turbo-16k" est qu'il peut gérer un grand texte tel que cet enregistrement. Ce code utilise le point de terminaison openai.chatcompletion.Create pour obtenir la réponse et passer les variables propt et transcription comme entrée utilisateur:

<code class="language-python">completions = openai.ChatCompletion.create(
    model="gpt-3.5-turbo-16k",
    messages=[
        {"role": "user", "content": prompt+"\n\n"+text}
    ],
    temperature=0.3,
)</code>

l'entrée complète ressemblera à ceci:

<code>从文本中提取以下信息:
    英伟达的收入
    英伟达本季度做了什么
    关于人工智能的评论

英伟达财报记录在此处</code>

Maintenant, si nous passons l'entrée à l'Openai.ChatCompletion.Create Endpoint, la sortie complète ressemblera à ceci:

<code class="language-bash">pip3 install openai pandas</code>

Comme vous pouvez le voir, il renvoie les réponses textuelles ainsi que l'utilisation des jetons demandés, ce qui est utile si vous suivez les dépenses et les coûts d'optimisation. Mais comme nous ne sommes intéressés que par le texte de la réponse, nous l'obtenons en spécifiant les complétions.choices [0] .Message.Content le chemin de réponse.

Si vous exécutez le code, vous devez obtenir une sortie similaire à ce qui est cité ci-dessous:

À partir du texte, nous pouvons extraire les informations suivantes:

  1. Revenus de Nvidia: Au deuxième trimestre de l'exercice 2024, NVIDIA a déclaré un chiffre d'affaires record du deuxième trimestre de 13,51 milliards de dollars, une augmentation de 88% par mois et 101% en glissement annuel.
  2. Ce que Nvidia a fait ce trimestre: Nvidia a connu une croissance significative dans tous les domaines. Leurs revenus dans le secteur du centre de données ont atteint un record, en hausse de 141% par mois et 171% en glissement annuel. Leur division de jeux a également atteint une croissance, avec des revenus en hausse de 11% par mois et 22% en glissement annuel. De plus, les revenus de leur service de visualisation professionnelle ont augmenté de 28% par mois. Ils ont également annoncé des partenariats et des partenariats avec des sociétés telles que Snowflake, ServiceNow, Accenture, Hugging Face, VMware et Softbank.
  3. Commentaires sur l'IA: NVIDIA met en évidence une forte demande pour sa plate-forme AI et ses solutions informatiques accélérées. Ils ont mentionné le déploiement de principaux fournisseurs de services cloud et de sociétés Internet grand public dans leurs systèmes HGX. Ils discutent également de l'application de l'intelligence artificielle générative dans diverses industries telles que le marketing, les médias et le divertissement. Nvidia met l'accent sur le potentiel de l'intelligence artificielle générative pour créer de nouvelles opportunités de marché et améliorer la productivité dans différents secteurs.

Comme vous pouvez le voir, le code extrait les informations spécifiées dans l'invite (revenus de Nvidia, ce que Nvidia a fait ce trimestre, et commente l'intelligence artificielle) et l'imprime.

Analyser les fichiers CSV

L'analyse des appels de gains et des fichiers texte est cool, mais pour analyser systématiquement de grandes quantités de données, vous devez utiliser des fichiers CSV.

En tant qu'exemple de travail, téléchargez cet ensemble de données CSV d'article moyen et collez-le dans votre fichier de projet.

Si vous regardez le fichier CSV, vous verrez qu'il a des colonnes comme l'auteur, les likes, le temps de lecture, le lien, le titre et le texte. Afin d'analyser les articles de médias à l'aide d'OpenAI, vous n'avez besoin que des colonnes "titre" et "texte".

Créez un nouveau fichier Python dans votre dossier de projet et collez ce code.

Ce code est légèrement différent du code que nous utilisons pour analyser les fichiers texte. Il lit le CSV ligne par ligne, extrait les informations spécifiées et les ajoute à la nouvelle colonne.

Dans ce tutoriel, j'ai choisi un ensemble de données CSV pour l'article moyen, que j'ai obtenu de Hsankesara sur Kaggle. Ce code d'analyse CSV utilisera les colonnes "Title" et "Article" du fichier CSV pour trouver la tonalité globale et les principales leçons / points de chaque message. Puisque je rencontre toujours des articles de clics sur Medium, je pense que le laisser juger chaque article en donnant à chaque article 0 à 3 «cote de clics» (0 signifie aucun appât cliqueur, 3 signifie un clic extrême) Le niveau de «Bait de clic de l'article est également très très intéressant.

L'analyse de l'ensemble du fichier CSV prendra trop de temps et consommera trop de points d'API avant d'expliquer le code, donc dans ce tutoriel, j'ai fait analyser le code les cinq premiers articles en utilisant df = df [: 5].

Vous pouvez être confus par les parties suivantes du code, alors laissez-moi expliquer:

<code class="language-bash">pip3 install openai pandas</code>

Ce code itère sur tous les articles (lignes) dans le fichier CSV et obtient le titre et le corps de chaque article sur chaque itération et le transmet à la fonction extrat_info que nous avons vue auparavant. Il utilise ensuite le code suivant pour convertir la réponse de la fonction extract_info en liste pour séparer les différents extraits d'informations en utilisant ce code:

<code class="language-python">completions = openai.ChatCompletion.create(
    model="gpt-3.5-turbo-16k",
    messages=[
        {"role": "user", "content": prompt+"\n\n"+text}
    ],
    temperature=0.3,
)</code>

Ensuite, il ajoute chaque élément d'information à la liste et si une erreur se produit (s'il n'y a pas de valeur), ajoute "aucun résultat" à la liste:

<code>从文本中提取以下信息:
    英伟达的收入
    英伟达本季度做了什么
    关于人工智能的评论

英伟达财报记录在此处</code>

Enfin, une fois la boucle FOR terminée, la liste contenant les informations extraites sera insérée dans une nouvelle colonne dans le fichier CSV:

<code class="language-json">{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "实际响应",
        "role": "assistant"
      }
    }
  ],
  "created": 1693336390,
  "id": "request-id",
  "model": "gpt-3.5-turbo-16k-0613",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 579,
    "prompt_tokens": 3615,
    "total_tokens": 4194
  }
}</code>

Comme vous pouvez le voir, il ajoute la liste aux nouvelles colonnes CSV appelées "Tone", "main_lesson_or_point" et "clickbait_score".

puis utilisez index = false pour les joindre au fichier CSV:

<code class="language-python">for di in range(len(df)):
    title = titles[di]
    abstract = articles[di]
    additional_params = extract_info('Title: '+str(title) + '\n\n' + 'Text: ' + str(abstract))
    try:
        result = additional_params.split("\n\n")
    except:
        result = {} </code>

La raison pour laquelle index = false doit être spécifié est d'éviter de créer de nouvelles colonnes d'index chaque fois qu'une nouvelle colonne est jointe à un fichier CSV.

Maintenant, si vous exécutez un fichier Python, attendez qu'il termine et vérifiez notre fichier CSV dans la visionneuse de fichiers CSV, vous verrez la nouvelle colonne comme indiqué dans l'image suivante.

How to Perform Data Analysis in Python Using the OpenAI API

Si vous exécutez le code plusieurs fois, vous remarquerez que les réponses générées sont légèrement différentes. En effet

Traitement de plusieurs fichiers

Si vous souhaitez analyser automatiquement plusieurs fichiers, vous devez d'abord les placer dans un dossier et vous assurer que le dossier ne contient que des fichiers qui vous intéressent, pour empêcher votre code Python de lire des fichiers non pertinents. Ensuite, installez la bibliothèque globulaire à l'aide de PIP3 Installer Glob et importez-le dans votre fichier Python à l'aide d'importation glob.

Dans votre fichier Python, utilisez ce code pour obtenir une liste de tous les fichiers dans le dossier de données:

<code class="language-python">try:
    result = additional_params.split("\n\n")
except:
    result = {} </code>

Ensuite, mettez le code qui exécute l'analyse dans la boucle FOR:

<code class="language-python">try:
    apa1.append(result[0])
except Exception as e:
    apa1.append('No result')
try:
    apa2.append(result[1])
except Exception as e:
    apa2.append('No result')
try:
    apa3.append(result[2])
except Exception as e:
    apa3.append('No result')</code>

Dans une boucle pour une boucle, lisez le contenu de chaque fichier du fichier texte comme ceci:

<code class="language-python">df = df.assign(Tone=apa1)
df = df.assign(Main_lesson_or_point=apa2)
df = df.assign(Clickbait_score=apa3)</code>

Pour les fichiers CSV, c'est aussi comme ceci:

<code class="language-python">df.to_csv("data.csv", index=False)</code>

également, assurez-vous d'enregistrer la sortie de chaque analyse de fichiers dans un fichier séparé en utilisant quelque chose de similaire à ce qui suit:

<code class="language-python">data_files = glob.glob("data_folder/*")</code>

Conclusion

N'oubliez pas d'expérimenter vos paramètres de température et de les ajuster en fonction de votre cas d'utilisation. Si vous voulez que l'IA génére des réponses plus créatives, augmentez la valeur de la température;

La combinaison de l'analyse des données OpenAI et Python a de nombreuses applications en plus de l'analyse des enregistrements d'appels de l'article et du rapport financier. Par exemple, l'analyse des nouvelles, l'analyse des livres, l'analyse de la revue des clients, etc.! Autrement dit, lorsque vous testez votre code Python sur de grands ensembles de données, assurez-vous de le tester sur une petite partie de l'ensemble de données complet pour enregistrer les points et le temps de l'API.

Questions fréquemment posées (FAQ) sur les API OpenAI pour l'analyse des données Python

Qu'est-ce que l'API OpenAI et comment fonctionne-t-il?

L'API OpenAI est un outil puissant qui permet aux développeurs d'accéder et de tirer parti des capacités du modèle OpenAI. Il fonctionne en envoyant une demande au point de terminaison de l'API, qui traite ensuite la demande et renvoie la sortie. Les API peuvent être utilisées pour une variété de tâches, y compris la génération de texte, la traduction, le résumé, etc. Il est conçu pour être facile à utiliser, avec une interface simple et une documentation claire.

Comment utiliser l'API OpenAI pour l'analyse des données?

L'API OpenAI permet l'analyse des données en tirant parti de ses capacités d'apprentissage automatique. Par exemple, vous pouvez l'utiliser pour analyser les données texte, extraire des informations et faire des prédictions. Vous pouvez utiliser vos données pour envoyer une demande à l'API et il renverra les résultats de l'analyse. Cela peut être fait en utilisant Python, car l'API prend en charge l'intégration Python.

Quels sont les avantages de l'utilisation de l'API OpenAI pour l'analyse des données?

Il existe de nombreux avantages de l'utilisation de l'API OpenAI pour l'analyse des données. Tout d'abord, il vous permet de profiter de la puissance de l'apprentissage automatique sans avoir à construire et à former vos propres modèles, en vous faisant gagner du temps et des ressources. Deuxièmement, il peut gérer de grandes quantités de données et fournir des informations qui peuvent être difficiles à obtenir manuellement. Enfin, il est flexible et peut être utilisé dans une variété de tâches d'analyse des données.

Comment intégrer API OpenAI à Python?

L'intégration de l'API OpenAI à Python est très simple. Vous devez installer le client Openai Python, ce qui peut être fait à l'aide de PIP. Une fois l'installation terminée, vous pouvez importer la bibliothèque OpenAI dans votre script Python et l'utiliser pour envoyer des demandes à l'API. Vous devez également configurer votre clé API, que vous pouvez obtenir sur le site Web OpenAI.

Quelles tâches peuvent être accomplies en utilisant l'API OpenAI?

L'API OpenAI peut être utilisée pour diverses tâches. Par exemple, il peut être utilisé pour la génération de texte, qui peut générer du texte de type humain basé sur des invites. Il peut également être utilisé dans la traduction, les résumés et l'analyse des sentiments. Dans le contexte de l'analyse des données, il peut être utilisé pour analyser les données texte, extraire des informations et faire des prédictions.

Quelles sont les limites de l'utilisation de l'API OpenAI?

Bien que l'API OpenAI soit puissante, elle a certaines limites. Par exemple, il y a une limite sur le nombre de demandes que vous pouvez envoyer à l'API par minute. De plus, l'API n'est pas gratuite et le coût peut augmenter si vous travaillez sur beaucoup de données. Enfin, bien que l'API soit généralement exacte, elle n'est pas parfaite et les résultats doivent être utilisés dans le cadre d'une stratégie analytique plus large.

Comment résoudre l'utilisation de l'API OpenAI?

Si vous avez des problèmes d'utilisation de l'API OpenAI, vous pouvez faire quelques pas. Tout d'abord, vérifiez le message d'erreur, car il fournit généralement des indices sur la cause du problème. Vous pouvez également vous référer à la documentation de l'API, qui fournit des informations détaillées sur la façon d'utiliser l'API et de dépanner les questions fréquemment posées. Si vous rencontrez toujours des problèmes, vous pouvez contacter la communauté Openai pour obtenir de l'aide.

Quel est le niveau de sécurité de l'API OpenAI?

L'API OpenAI est conçue avec la sécurité à l'esprit. Toutes les données envoyées à l'API sont chiffrées pendant la transmission, et OpenAI a des politiques strictes pour protéger vos données. Mais, comme tout service en ligne, il est important d'utiliser l'API de manière responsable et de suivre les meilleures pratiques de sécurité des données.

Puis-je utiliser l'API OpenAI à usage commercial?

Oui, vous pouvez utiliser l'API OpenAI à des fins commerciales. Cependant, vous devez savoir que l'utilisation de l'API entraînera des coûts et vous devez consulter les conditions d'utilisation de l'API pour vous assurer que votre utilisation prévue répond aux exigences.

Quel est l'avenir de l'API Openai?

L'avenir de l'API Openai est brillant. OpenAI améliore constamment ses modèles et prolonge les capacités de l'API. Avec l'évolution continue de l'apprentissage automatique et de l'intelligence artificielle, nous pouvons nous attendre à ce que les API deviennent plus puissantes et polyvalentes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn