Maison  >  Article  >  développement back-end  >  Python introduit le JSON imbriqué pour se transformer en Dataframe en quelques secondes !

Python introduit le JSON imbriqué pour se transformer en Dataframe en quelques secondes !

coldplay.xixi
coldplay.xixioriginal
2020-12-29 09:34:393407parcourir

Tutoriel PythonLa colonne présente comment imbriquer JSON

Python introduit le JSON imbriqué pour se transformer en Dataframe en quelques secondes !

Recommandé (gratuit) : Tutoriel Python

L'appel de API et la base de données de documents renverront des objets JSON imbriqués, lorsque nous utilisons Python pour essayer de convertir les clés dans les objets imbriqués structure Une fois convertis en colonnes, les résultats suivants seront souvent obtenus lorsque les données sont chargées dans pandas :

df = pd.DataFrame.from_records(results [“ issues”],columns = [“ key”,“ fields”])
Description : Ici, les résultats sont un grand dictionnaire, les problèmes sont une clé dans les résultats et la valeur des problèmes est une liste imbriquée de dictionnaires d'objets JSON, vous verrez la structure imbriquée JSON plus tard.

Le problème est que l'API renvoie une structure JSON imbriquée, et les clés qui nous intéressent se trouvent effectivement à différents niveaux dans l'objet. La structure

imbriquée JSON ressemble à ceci.

Ce que nous voulons, c'est quelque chose comme ça.

Ce qui suit prend comme exemple les données renvoyées par une API. Les API contiennent généralement des métadonnées sur les champs associés. Disons que ce sont les domaines que nous voulons.

  • clé : clé JSON, au premier niveau.
  • résumé : L'objet "champ" de deuxième niveau.
  • nom du statut : Poste de troisième niveau.
  • statutNom de la catégorie : Situé au 4ème niveau de nidification.

Comme ci-dessus, les champs que nous choisissons d'extraire se trouvent à 4 niveaux d'imbrication différents dans la structure JSON de la liste des tickets, l'un après l'autre.

{
  "expand": "schema,names",
  "issues": [
    {
      "fields": {
        "issuetype": {
          "avatarId": 10300,
          "description": "",
          "id": "10005",
          "name": "New Feature",
          "subtask": False
        },
        "status": {
          "description": "A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.",
          "id": "5",
          "name": "Resolved",
          "statusCategory": {
            "colorName": "green",
            "id": 3,
            "key": "done",
            "name": "Done",
          }
        },
        "summary": "Recovered data collection Defraglar $MFT problem"
      },
      "id": "11861",
      "key": "CAE-160",
    },
    {
      "fields": { 
... more issues],
  "maxResults": 5,
  "startAt": 0,
  "total": 160
}

Une solution pas si bonne

Une option consiste à coder directement et à écrire une fonction qui trouve un champ spécifique, mais le problème est que chaque intégration doit be Appelez cette fonction pour définir les champs, puis appelez .apply à la nouvelle colonne dans DataFrame.

Afin d'obtenir les différents champs souhaités, nous extrayons d'abord les objets dans les champs en colonnes :

df = (
    df["fields"]
    .apply(pd.Series)
    .merge(df, left_index=True, right_index = True)
)

Comme le montre le tableau ci-dessus, seul un résumé est disponible, type de problème , statut, etc. Toujours enfoui dans des objets imbriqués.

Ce qui suit est une méthode pour extraire le nom dans issuetype.

# 提取issue type的name到一个新列叫"issue_type"
df_issue_type = (
    df["issuetype"]
    .apply(pd.Series)
    .rename(columns={"name": "issue_type_name"})["issue_type_name"]
)
df = df.assign(issue_type_name = df_issue_type)

Comme ci-dessus, s'il y a trop de niveaux d'imbrication, vous devez implémenter la récursivité vous-même, car chaque niveau d'imbrication doit appeler une méthode comme celle ci-dessus pour analyser et ajouter à une nouvelle colonne.

Pour les amis ayant des bases de programmation faibles, il est en fait assez difficile d'en choisir une, en particulier pour les analystes de données, lorsqu'ils sont impatients d'utiliser des données, ils espèrent obtenir rapidement des données structurées à analyser.

Frère Dong partagera ci-dessous une pandas solution intégrée.

Solution intégrée

pandas a une fonction intégrée géniale appelée .json_normalize. La documentation de

pandas mentionne : Normaliser les données JSON semi-structurées dans un tableau plat.

Tout le code de la solution précédente peut être complété à l'aide de cette fonction intégrée en seulement 3 lignes. Les étapes sont très simples, il suffit de comprendre l'utilisation suivante.

Déterminez les champs souhaités et utilisez le symbole .

Mettez la liste imbriquée que vous souhaitez traiter (ici results["issues"]) comme paramètre dans .json_normalize.

Filtrer la liste des CHAMPS que nous avons définis.

FIELDS = ["key", "fields.summary", "fields.issuetype.name", "fields.status.name", "fields.status.statusCategory.name"]
df = pd.json_normalize(results["issues"])
df[FIELDS]

Oui, c'est aussi simple que cela.

Autres opérations

Chemin d'enregistrement

En plus de passer la liste results["issues"] comme ci-dessus, nous utilisons également spécifie le chemin d'accès à la liste dans l'objet record_path. JSON

# 使用路径而不是直接用results["issues"]
pd.json_normalize(results, record_path="issues")[FIELDS]

Délimiteur personnalisé

Vous pouvez également utiliser le paramètre sep pour personnaliser le délimiteur pour les connexions de structure imbriquées, par exemple, remplacer le "." par défaut par "-" ci-dessous .

### 用 "-" 替换默认的 "."
FIELDS = ["key", "fields-summary", "fields-issuetype-name", "fields-status-name", "fields-status-statusCategory-name"]
pd.json_normalize(results["issues"], sep = "-")[FIELDS]

Contrôler la récursion

Si vous ne souhaitez pas faire de récursion sur chaque objet enfant, vous pouvez utiliser le paramètre

pour contrôler la profondeur. Dans ce cas, puisque le champ max_level est au niveau 4 de l'objet statusCategory.name, il ne sera pas inclus dans le JSON résultant. DataFrame

# 只深入到嵌套第二级
pd.json_normalize(results, record_path="issues", max_level = 2)
Ce qui suit est la description officielle du document

de .json_normalize Si vous ne comprenez pas, vous pouvez l'apprendre par vous-même. Cette fois, frère Dong le présentera ici. pandas

Documentation officielle des pandas : https://pandas.pydata.org/pan...

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn