Maison >développement back-end >Tutoriel Python >Comment convertir un fichier XML en DataFrame Pandas avec la bibliothèque XML de Python ?

Comment convertir un fichier XML en DataFrame Pandas avec la bibliothèque XML de Python ?

DDD
DDDoriginal
2024-11-25 20:03:12791parcourir

How to Convert an XML File to a Pandas DataFrame with Python's XML Library?

Comment convertir un fichier XML en un Dataframe Pandas

La conversion d'un fichier XML en un DataFrame Pandas structuré peut être une tâche précieuse pour les données traitement et analyse. Voici une meilleure approche pour atteindre cet objectif :

Utilisation de la bibliothèque XML de Python

La bibliothèque standard de Python propose le module XML, en particulier le [xml.etree.ElementTree](https ://docs.python.org/3/library/xml.etree.elementtree.html), qui fournit des outils pour analyser et manipuler des données XML. Ce module permet un processus de conversion simple.

Itération sur les éléments

Pour convertir les données XML en DataFrame, vous pouvez utiliser une fonction génératrice pour parcourir les éléments dans le document XML. Voici un exemple de fonction génératrice appelée iter_docs qui génère des dictionnaires contenant les attributs et le contenu textuel du elements :

def iter_docs(author):
    author_attr = author.attrib
    for doc in author.iter('document'):
        doc_dict = author_attr.copy()
        doc_dict.update(doc.attrib)
        doc_dict['data'] = doc.text
        yield doc_dict

Générer un Dataframe

Une fois que vous avez la fonction générateur, vous pouvez créer un DataFrame pandas en suivant les étapes suivantes :

  1. Analyser les données XML à l'aide de la fonction ElementTree.parse().
  2. Parcourir le éléments dans le document analysé.
  3. Pour chaque , utilisez le générateur iter_docs pour créer une séquence de dictionnaires représentant l'élément éléments.
  4. Utilisez le constructeur pandas.DataFrame pour créer un DataFrame à partir de la séquence de dictionnaires.

Voici un exemple d'extrait de code qui illustre ce processus :

import pandas as pd
import xml.etree.ElementTree as ET

etree = ET.parse('file_path')
doc_df = pd.DataFrame(list(iter_docs(etree.getroot())))

En mettant en œuvre cette approche, vous pouvez convertir efficacement les données XML en un DataFrame pandas structuré, qui peut être manipulé et analysé davantage pour vos besoins spécifiques. besoins.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn