먼저 Pandas 라이브러리가 설치되어 있는지 확인하세요. 그렇지 않은 경우 다음 명령을 사용하여 설치하십시오.
pip install pandas
import pandas as pd
Pandas를 사용하면 CSV, Excel, JSON 및 HTML을 포함한 다양한 데이터 형식을 쉽게 읽을 수 있습니다. 등. 다음은 CSV 파일을 읽는 예입니다.
data = pd.read_csv('data.csv')
다른 데이터 형식도 Excel 파일을 읽는 방법과 유사합니다.
data = pd.read_excel('data.xlsx')
head()를 사용할 수 있습니다.
함수를 사용하여 데이터의 처음 몇 행(기본값은 5행): head()
函数查看数据的前几行(默认为5行):
print(data.head())
还可以使用tail()
函数查看数据的后几行,以及info()
和describe()
函数查看数据的统计信息:
print(data.tail()) print(data.info()) print(data.describe())
选择数据的方式有很多,以下是一些常用方法:
选择某列:data['column_name']
选择多列:data[['column1', 'column2']]
选择某行:data.loc[row_index]
选择某个值:data.loc[row_index, 'column_name']
通过条件选择:data[data['column_name'] > value]
在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:
去除空值:data.dropna()
替换空值:data.fillna(value)
重命名列名:data.rename(columns={'old_name': 'new_name'})
数据类型转换:data['column_name'].astype(new_type)
去除重复值:data.drop_duplicates()
Pandas提供了丰富的数据分析功能,以下是一些常用方法:
计算平均值:data['column_name'].mean()
计算中位数:data['column_name'].median()
计算众数:data['column_name'].mode()
计算标准差:data['column_name'].std()
计算相关性:data.corr()
数据分组:data.groupby('column_name')
pip install matplotlib
tail()
함수를 사용하여 데이터의 마지막 몇 행도 볼 수 있습니다. 데이터의 통계 정보를 보려면 info()
및 describe()
함수를 사용하세요. import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()IV. 데이터 선택 다음은 몇 가지 방법입니다. 일반적인 방법:
data['column_name']
여러 열 선택: data[['column1', 'column2']]
data.loc[row_index]
값 선택: data.loc[row_index, 'column_name']
data[data['column_name'] > value]
5 . 데이터 정리데이터 분석에 앞서 일반적으로 데이터는 정리되어야 합니다. 다음은 일반적으로 사용되는 데이터 정리 방법입니다.
data.dropna()
🎜🎜data.fillna(value)
🎜🎜data.rename(columns={'old_name': 'new_name'})
🎜 🎜data['column_name'].astype(new_type)
🎜🎜data.drop_duplicates()
🎜 🎜🎜🎜 6. 데이터 분석 🎜🎜Pandas는 다양한 데이터 분석 기능을 제공합니다. 다음은 몇 가지 일반적인 방법입니다. 🎜 data[ 'column_name'].mean()
🎜🎜data['column_name'].median()
🎜🎜data['column_name'].mode()
🎜🎜data['column_name'].std()
🎜🎜data.corr()
🎜🎜data.groupby('column_name')
🎜🎜🎜🎜7. Pandas를 사용하면 데이터를 시각적 차트로 쉽게 변환할 수 있습니다. 먼저 Matplotlib 라이브러리를 설치해야 합니다.🎜data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()🎜그런 다음 다음 코드를 사용하여 차트를 만듭니다.🎜
data.to_csv('output.csv', index=False)🎜다른 시각적 차트 유형에는 꺾은선형 차트, 원형 차트, 히스토그램 등이 포함됩니다.🎜
data.to_excel('output.xlsx', index=False)🎜8. 🎜🎜Pandas는 CSV, Excel, JSON, HTML 등과 같은 다양한 형식으로 데이터를 내보낼 수 있습니다. 다음은 데이터를 CSV 파일로 내보내는 예입니다. 🎜
import pandas as pd data = pd.read_csv('sales_data.csv')🎜다른 데이터 형식의 내보내기 방법은 Excel 파일로 내보내는 것과 유사합니다. 🎜
data['sales_amount'] = data['quantity'] * data['price']🎜9 실제 사례 🎜🎜우리는 이미 판매 데이터 사본(sales_data.csv)의 다음 목표는 데이터를 분석하는 것입니다. 먼저 데이터를 읽어야 합니다. 🎜
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')🎜 그런 다음 데이터를 정리하고 분석할 수 있습니다. 예를 들어, 각 제품의 판매량을 계산할 수 있습니다. 🎜
data.to_csv('sales_analysis.csv', index=False)🎜 다음으로 어떤 제품의 판매량이 가장 높은지 분석할 수 있습니다. 🎜rrreee🎜마지막으로 결과를 CSV 파일로 내보낼 수 있습니다. 🎜rrreee
위 내용은 Python에서 데이터 분석을 위해 Pandas를 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!