Maison >développement back-end >Tutoriel Python >Apprenez à utiliser les fonctions pandas couramment utilisées pour traiter facilement des données à grande échelle
Maîtrisez les fonctions courantes de la bibliothèque pandas et traitez facilement le Big Data. Des exemples de code spécifiques sont nécessaires
Avec l'avènement de l'ère du Big Data, le traitement des données est devenu de plus en plus important, et la bibliothèque Pandas est la plus importante. bibliothèque de traitement de données couramment utilisée dans Python One, ses fonctions puissantes et ses méthodes de traitement flexibles sont appréciées par la majorité des analystes de données et des scientifiques. Cet article présentera certaines fonctions couramment utilisées dans la bibliothèque pandas et fournira des exemples de code spécifiques pour aider les lecteurs à démarrer rapidement et à traiter facilement le Big Data.
pandas propose une variété de façons de lire des données, la plus couramment utilisée est de lire des fichiers csv. Utilisez la fonction pandas.read_csv()
pour lire directement le fichier csv dans un objet DataFrame. pandas.read_csv()
函数可以直接将csv文件读取为一个DataFrame对象。
import pandas as pd # 读取csv文件 data = pd.read_csv('data.csv')
同样地,我们可以使用pandas.DataFrame.to_csv()
函数将DataFrame对象写入到csv文件。
# 将DataFrame对象写入csv文件 data.to_csv('result.csv', index=False)
在处理大数据时,首先需要了解数据的整体情况。pandas提供了几个常用的函数,可以帮助我们查看数据的前几行、后几行以及整体的统计摘要信息。
head()
函数可以查看DataFrame的前几行,默认显示前5行。# 查看前5行数据 print(data.head())
tail()
函数可以查看DataFrame的后几行,默认显示后5行。# 查看后5行数据 print(data.tail())
describe()
函数可以查看DataFrame的统计摘要信息,包括计数、平均值、标准差、最小值、最大值等。# 查看统计摘要信息 print(data.describe())
在处理大数据时,我们常常需要根据特定条件对数据进行筛选与过滤。pandas提供了多个常用的函数,可以帮助我们实现这一功能。
loc[]
函数可以通过标签筛选数据。# 筛选某一列中值大于10的数据 filtered_data = data.loc[data['column'] > 10]
isin()
函数可以根据一个列表中的值进行筛选。# 筛选某一列中值在列表[1,2,3]中的数据 filtered_data = data[data['column'].isin([1, 2, 3])]
query()
函数可以根据条件表达式进行筛选。# 筛选某一列中值大于10且小于20的数据 filtered_data = data.query('10 < column < 20')
处理大数据时,数据的排序和重排经常是必不可少的操作。pandas提供了多个函数,可以帮助我们实现这一功能。
sort_values()
函数可以按照指定的列对数据进行排序。# 按照某一列的值对数据进行升序排序 sorted_data = data.sort_values(by='column', ascending=True)
sort_index()
函数可以按照索引对数据进行排序。# 按照索引对数据进行升序排序 sorted_data = data.sort_index(ascending=True)
在处理大数据时,常常需要根据某些条件进行数据分组,并对每个组进行聚合计算。pandas提供了多个函数,可以帮助我们完成这个任务。
groupby()
函数可以根据某一列进行分组。# 根据某一列进行分组 grouped_data = data.groupby('column')
agg()
函数可以对分组后的数据进行聚合计算。# 对分组后的数据进行求和操作 sum_data = grouped_data.agg({'column': 'sum'})
在处理大数据时,常常需要将多个数据集合并或连接在一起。pandas提供了多个函数,可以帮助我们实现这一功能。
merge()
函数可以根据指定的列将两个数据集合并在一起。# 按照某一列进行合并 merged_data = pd.merge(data1, data2, on='column')
concat()
# 按行连接两个数据集 concatenated_data = pd.concat([data1, data2], axis=0)
pandas.DataFrame.to_csv()
pour écrire l'objet DataFrame dans un fichier csv. Afficher les données
🎜🎜Lorsque vous traitez du Big Data, vous devez d'abord comprendre la situation globale des données. Pandas fournit plusieurs fonctions couramment utilisées qui peuvent nous aider à afficher les premières lignes, les dernières lignes et les informations statistiques globales récapitulatives des données. La fonction 🎜head()
peut afficher les premières lignes de DataFrame, et les 5 premières lignes sont affichées par défaut. La fonction 🎜🎜rrreeetail()
peut afficher les dernières lignes du DataFrame, et les 5 dernières lignes sont affichées par défaut. La fonction 🎜🎜rrreeedescribe()
peut afficher les informations statistiques récapitulatives de DataFrame, y compris le nombre, la moyenne, l'écart type, la valeur minimale, la valeur maximale, etc. 🎜🎜rrreeeloc[]
pour filtrer les données par balises. 🎜🎜rrreeeisin()
pour filtrer en fonction des valeurs d'une liste. 🎜🎜rrreeequery()
pour filtrer en fonction d'expressions conditionnelles. 🎜🎜rrreeesort_values()
pour trier les données selon les colonnes spécifiées. 🎜🎜rrreeesort_index()
pour trier les données par index. 🎜🎜rrreeegroupby()
pour regrouper par une certaine colonne. 🎜🎜rrreeeagg()
pour effectuer des calculs d'agrégation sur des données groupées. 🎜🎜rrreeemerge()
pour fusionner deux ensembles de données en fonction des colonnes spécifiées. 🎜🎜rrreeeconcat()
pour joindre plusieurs ensembles de données ensemble en lignes ou en colonnes. 🎜🎜rrreee🎜Ce qui précède présente certaines fonctions couramment utilisées et des exemples de code spécifiques de la bibliothèque pandas. J'espère que cela sera utile aux lecteurs lors du traitement du Big Data. Bien entendu, la bibliothèque pandas a des fonctions plus puissantes et vous pouvez explorer davantage les documents officiels et autres documents lorsqu'il s'agit de scénarios plus complexes. Je souhaite que les lecteurs puissent facilement gérer le Big Data et obtenir de meilleurs résultats d'analyse ! 🎜Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!