Maison >développement back-end >Tutoriel Python >Python introduit le JSON imbriqué pour se transformer en Dataframe en quelques secondes !
Tutoriel PythonLa colonne présente comment imbriquer JSON
Recommandé (gratuit) : Tutoriel Python
L'appel de API
et la base de données de documents renverront des objets JSON
imbriqués, lorsque nous utilisons Python
pour essayer de convertir les clés dans les objets imbriqués structure Une fois convertis en colonnes, les résultats suivants seront souvent obtenus lorsque les données sont chargées dans pandas
:
df = pd.DataFrame.from_records(results [“ issues”],columns = [“ key”,“ fields”])
Description : Ici, les résultats sont un grand dictionnaire, les problèmes sont une clé dans les résultats et la valeur des problèmes est une liste imbriquée de dictionnaires d'objets JSON, vous verrez la structure imbriquée JSON plus tard.
Le problème est que l'API renvoie une structure JSON
imbriquée, et les clés qui nous intéressent se trouvent effectivement à différents niveaux dans l'objet. La structure
imbriquée JSON
ressemble à ceci.
Ce que nous voulons, c'est quelque chose comme ça.
Ce qui suit prend comme exemple les données renvoyées par une API. Les API contiennent généralement des métadonnées sur les champs associés. Disons que ce sont les domaines que nous voulons.
Comme ci-dessus, les champs que nous choisissons d'extraire se trouvent à 4 niveaux d'imbrication différents dans la structure JSON
de la liste des tickets, l'un après l'autre.
{ "expand": "schema,names", "issues": [ { "fields": { "issuetype": { "avatarId": 10300, "description": "", "id": "10005", "name": "New Feature", "subtask": False }, "status": { "description": "A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.", "id": "5", "name": "Resolved", "statusCategory": { "colorName": "green", "id": 3, "key": "done", "name": "Done", } }, "summary": "Recovered data collection Defraglar $MFT problem" }, "id": "11861", "key": "CAE-160", }, { "fields": { ... more issues], "maxResults": 5, "startAt": 0, "total": 160 }
Une solution pas si bonne
Une option consiste à coder directement et à écrire une fonction qui trouve un champ spécifique, mais le problème est que chaque intégration doit be Appelez cette fonction pour définir les champs, puis appelez .apply
à la nouvelle colonne dans DataFrame
.
Afin d'obtenir les différents champs souhaités, nous extrayons d'abord les objets dans les champs en colonnes :
df = ( df["fields"] .apply(pd.Series) .merge(df, left_index=True, right_index = True) )
Comme le montre le tableau ci-dessus, seul un résumé est disponible, type de problème , statut, etc. Toujours enfoui dans des objets imbriqués.
Ce qui suit est une méthode pour extraire le nom dans issuetype.
# 提取issue type的name到一个新列叫"issue_type" df_issue_type = ( df["issuetype"] .apply(pd.Series) .rename(columns={"name": "issue_type_name"})["issue_type_name"] ) df = df.assign(issue_type_name = df_issue_type)
Comme ci-dessus, s'il y a trop de niveaux d'imbrication, vous devez implémenter la récursivité vous-même, car chaque niveau d'imbrication doit appeler une méthode comme celle ci-dessus pour analyser et ajouter à une nouvelle colonne.
Pour les amis ayant des bases de programmation faibles, il est en fait assez difficile d'en choisir une, en particulier pour les analystes de données, lorsqu'ils sont impatients d'utiliser des données, ils espèrent obtenir rapidement des données structurées à analyser.
Frère Dong partagera ci-dessous une pandas
solution intégrée.
Solution intégrée
pandas
a une fonction intégrée géniale appelée .json_normalize
. La documentation de
pandas
mentionne : Normaliser les données JSON
semi-structurées dans un tableau plat.
Tout le code de la solution précédente peut être complété à l'aide de cette fonction intégrée en seulement 3 lignes. Les étapes sont très simples, il suffit de comprendre l'utilisation suivante.
Déterminez les champs souhaités et utilisez le symbole .
Mettez la liste imbriquée que vous souhaitez traiter (ici results["issues"]
) comme paramètre dans .json_normalize
.
Filtrer la liste des CHAMPS que nous avons définis.
FIELDS = ["key", "fields.summary", "fields.issuetype.name", "fields.status.name", "fields.status.statusCategory.name"] df = pd.json_normalize(results["issues"]) df[FIELDS]
Oui, c'est aussi simple que cela.
Autres opérations
Chemin d'enregistrement
En plus de passer la liste results["issues"]
comme ci-dessus, nous utilisons également spécifie le chemin d'accès à la liste dans l'objet record_path
. JSON
# 使用路径而不是直接用results["issues"] pd.json_normalize(results, record_path="issues")[FIELDS]
Délimiteur personnalisé
Vous pouvez également utiliser le paramètre sep pour personnaliser le délimiteur pour les connexions de structure imbriquées, par exemple, remplacer le "." par défaut par "-" ci-dessous .### 用 "-" 替换默认的 "." FIELDS = ["key", "fields-summary", "fields-issuetype-name", "fields-status-name", "fields-status-statusCategory-name"] pd.json_normalize(results["issues"], sep = "-")[FIELDS]
Contrôler la récursion
Si vous ne souhaitez pas faire de récursion sur chaque objet enfant, vous pouvez utiliser le paramètre pour contrôler la profondeur. Dans ce cas, puisque le champ max_level
est au niveau 4 de l'objet statusCategory.name
, il ne sera pas inclus dans le JSON
résultant. DataFrame
# 只深入到嵌套第二级 pd.json_normalize(results, record_path="issues", max_level = 2)Ce qui suit est la description officielle du document
de .json_normalize
Si vous ne comprenez pas, vous pouvez l'apprendre par vous-même. Cette fois, frère Dong le présentera ici. pandas
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!