Maison >développement back-end >Tutoriel Python >Comment puis-je partager facilement des DataFrames complexes pour des exemples de code reproductibles ?

Comment puis-je partager facilement des DataFrames complexes pour des exemples de code reproductibles ?

Barbara Streisand
Barbara Streisandoriginal
2024-12-22 14:44:10731parcourir

How Can I Easily Share Complex DataFrames for Reproducible Code Examples?

Partage facile d'échantillons de données avec df.to_dict()

Malgré des directives claires pour les bonnes questions et l'inclusion d'échantillons de données reproductibles, de nombreux les utilisateurs négligent souvent de fournir suffisamment de données pour l’analyse. Cet article explore l'utilisation de la fonction df.to_dict() comme moyen pratique de partager des exemples de trames de données plus complexes que des nombres aléatoires.

Cas 1 : trames de données provenant de sources locales

Pour les dataframes obtenues à partir de sources locales, cette approche est simple :

  1. Exécuter df.to_dict() pour générer une représentation par dictionnaire du dataframe.
  2. Copiez le résultat, y compris la structure du dictionnaire.
  3. Collez le contenu dans pd.DataFrame() dans votre extrait de code.

Cas 2 : Tables provenant d'autres Applications

Si votre tableau se trouve dans une application comme Excel, vous pouvez utiliser les étapes suivantes :

  1. Copiez le contenu du tableau.
  2. Exécutez df =pd.read_clipboard(sep='s ') pour lire le contenu dans une trame de données, où 's' signifie n'importe quel space.
  3. Exécutez df.to_dict() et incluez le résultat dans df=pd.DataFrame().

Gestion de trames de données plus volumineuses

Pour les dataframes plus volumineuses, considérez ce qui suit approches :

  • Utilisez df.head(20).to_dict() pour inclure uniquement les 20 premières lignes.
  • Utilisez df.to_dict('split') pour remodeler la sortie pour lisibilité améliorée sur moins de lignes.

Exemple d'utilisation d'Iris Ensemble de données

Considérons l'ensemble de données iris, connu pour être disponible dans plotly express.

import plotly.express as px
import pandas as pd

df = px.data.iris().head(10)
sample = df.to_dict('split')

Cela produira un dictionnaire avec un index, des colonnes et des clés de données, permettant une recréation facile du dataframe en utilisant :

df = pd.DataFrame(index=sample['index'], columns=sample['columns'], data=sample['data'])

Modifier

Notez que df.to_dict() ne peut pas lire les horodatages sans inclure explicitement l'importation nécessaire (par exemple, depuis pandas import Timestamp).

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn