pandas ライブラリは、Python で一般的に使用されるデータ処理および分析ツールであり、データのインポート、クリーニング、処理、分析、視覚化を簡単に完了できる豊富な関数とメソッドを提供します。 。この記事では、pandas ライブラリでよく使用される関数のクイック スタート ガイドを、具体的なコード例とともに紹介します。
import pandas as pd # 从csv文件中导入数据 data = pd.read_csv('data.csv') # 从excel文件中导入数据 data = pd.read_excel('data.xlsx')
# 查看数据的前5行 print(data.head()) # 查看数据的后5行 print(data.tail())
# 删除含有缺失值的行 data = data.dropna() # 使用均值填充缺失值 data = data.fillna(data.mean()) # 将特定的值替换为其他值 data['column_name'] = data['column_name'].replace('old_value', 'new_value')
# 使用位置索引切片 subset = data.iloc[1:10, 2:5] # 使用标签索引切片 subset = data.loc[data['column_name'] == 'value'] # 使用条件筛选 subset = data[data['column_name'] > 10]
# 按列进行排序 data = data.sort_values('column_name') # 按索引进行排序 data = data.sort_index() # 对列进行排名 data['column_rank'] = data['column_name'].rank()
# 对列进行聚合操作 grouped_data = data.groupby('column_name').sum() # 对多列进行聚合操作 grouped_data = data.groupby(['column_name1', 'column_name2']).mean() # 对列进行自定义的聚合操作 aggregated_data = data.groupby('column_name').agg({'column_name': 'mean', 'column_name2': 'sum'})
# 绘制折线图 data.plot(x='column_name', y='column_name2', kind='line') # 绘制散点图 data.plot(x='column_name', y='column_name2', kind='scatter') # 绘制柱状图 data.plot(x='column_name', y='column_name2', kind='bar')
この記事では、pandas ライブラリでよく使用されるいくつかの関数と、対応する特定のコード例を簡単に紹介します。これらの機能の使い方を学び使いこなすことで、より効率的にデータを処理・分析できるようになります。もちろん、pandas ライブラリには、誰もが見つけて適用できるようになる、より強力な機能があります。 pandas ライブラリについてさらに詳しく知りたい場合は、公式ドキュメントまたは関連するチュートリアルとサンプル コードをチェックしてください。
以上がpandas ライブラリでよく使用される関数のクイック スタート ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。