>백엔드 개발 >파이썬 튜토리얼 >Python에서 데이터 분석을 위해 Pandas를 사용하는 방법

Python에서 데이터 분석을 위해 Pandas를 사용하는 방법

WBOY
WBOY앞으로
2023-05-16 18:29:261002검색

먼저 Pandas 라이브러리가 설치되어 있는지 확인하세요. 그렇지 않은 경우 다음 명령을 사용하여 설치하십시오.

pip install pandas

1. Pandas 라이브러리 가져오기

import pandas as pd

2. 데이터 읽기

Pandas를 사용하면 CSV, Excel, JSON 및 HTML을 포함한 다양한 데이터 형식을 쉽게 읽을 수 있습니다. 등. 다음은 CSV 파일을 읽는 예입니다.

data = pd.read_csv('data.csv')

다른 데이터 형식도 Excel 파일을 읽는 방법과 유사합니다.

data = pd.read_excel('data.xlsx')

3 데이터 보기

head()를 사용할 수 있습니다. 함수를 사용하여 데이터의 처음 몇 행(기본값은 5행): head()函数查看数据的前几行(默认为5行):

print(data.head())

还可以使用tail()函数查看数据的后几行,以及info()describe()函数查看数据的统计信息:

print(data.tail())
print(data.info())
print(data.describe())

四. 选择数据

选择数据的方式有很多,以下是一些常用方法:

  • 选择某列:data['column_name']

  • 选择多列:data[['column1', 'column2']]

  • 选择某行:data.loc[row_index]

  • 选择某个值:data.loc[row_index, 'column_name']

  • 通过条件选择:data[data['column_name'] > value]

五. 数据清洗

在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:

  • 去除空值:data.dropna()

  • 替换空值:data.fillna(value)

  • 重命名列名:data.rename(columns={'old_name': 'new_name'})

  • 数据类型转换:data['column_name'].astype(new_type)

  • 去除重复值:data.drop_duplicates()

六. 数据分析

Pandas提供了丰富的数据分析功能,以下是一些常用方法:

  • 计算平均值:data['column_name'].mean()

  • 计算中位数:data['column_name'].median()

  • 计算众数:data['column_name'].mode()

  • 计算标准差:data['column_name'].std()

  • 计算相关性:data.corr()

  • 数据分组:data.groupby('column_name')

    pip install matplotlib

    tail() 함수를 사용하여 데이터의 마지막 몇 행도 볼 수 있습니다. 데이터의 통계 정보를 보려면 info()describe() 함수를 사용하세요.
  • import matplotlib.pyplot as plt
    
    data['column_name'].plot(kind='bar')
    plt.show()
IV. 데이터 선택

다음은 몇 가지 방법입니다. 일반적인 방법:

  • 열 선택: data['column_name']

  • 여러 열 선택: data[['column1', 'column2']]

  • 행 선택: data.loc[row_index]

  • 값 선택: data.loc[row_index, 'column_name']

  • 조건으로 선택: data[data['column_name'] > value]

    5 . 데이터 정리

    데이터 분석에 앞서 일반적으로 데이터는 정리되어야 합니다. 다음은 일반적으로 사용되는 데이터 정리 방법입니다.

    • null 값 제거: data.dropna()🎜🎜
    • 🎜Replace null 값 값: data.fillna(value)🎜🎜
    • 🎜열 이름 이름 바꾸기: data.rename(columns={'old_name': 'new_name'}) 🎜 🎜
    • 🎜데이터 유형 변환: data['column_name'].astype(new_type)🎜🎜
    • 🎜중복 값 제거: data.drop_duplicates() 🎜 🎜🎜🎜 6. 데이터 분석 🎜🎜Pandas는 다양한 데이터 분석 기능을 제공합니다. 다음은 몇 가지 일반적인 방법입니다. 🎜
      • 🎜평균 계산: data[ 'column_name'].mean()🎜🎜
      • 🎜중앙값 계산: data['column_name'].median()🎜🎜
      • 🎜최빈값 계산 : data['column_name'].mode()🎜🎜
      • 🎜표준편차 계산: data['column_name'].std()🎜🎜
      • 🎜 상관관계 계산: data.corr()🎜🎜
      • 🎜데이터 그룹화: data.groupby('column_name')🎜🎜🎜🎜7. Pandas를 사용하면 데이터를 시각적 차트로 쉽게 변환할 수 있습니다. 먼저 Matplotlib 라이브러리를 설치해야 합니다.🎜
        data['column_name'].plot(kind='line')
        data['column_name'].plot(kind='pie')
        data['column_name'].plot(kind='hist')
        plt.show()
        🎜그런 다음 다음 코드를 사용하여 차트를 만듭니다.🎜
        data.to_csv('output.csv', index=False)
        🎜다른 시각적 차트 유형에는 꺾은선형 차트, 원형 차트, 히스토그램 등이 포함됩니다.🎜
        data.to_excel('output.xlsx', index=False)
        🎜8. 🎜🎜Pandas는 CSV, Excel, JSON, HTML 등과 같은 다양한 형식으로 데이터를 내보낼 수 있습니다. 다음은 데이터를 CSV 파일로 내보내는 예입니다. 🎜
        import pandas as pd
        
        data = pd.read_csv('sales_data.csv')
        🎜다른 데이터 형식의 내보내기 방법은 Excel 파일로 내보내는 것과 유사합니다. 🎜
        data['sales_amount'] = data['quantity'] * data['price']
        🎜9 실제 사례 🎜🎜우리는 이미 판매 데이터 사본(sales_data.csv)의 다음 목표는 데이터를 분석하는 것입니다. 먼저 데이터를 읽어야 합니다. 🎜
        max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax()
        print(f'最高销售额的产品是:{max_sales}')
        🎜 그런 다음 데이터를 정리하고 분석할 수 있습니다. 예를 들어, 각 제품의 판매량을 계산할 수 있습니다. 🎜
        data.to_csv('sales_analysis.csv', index=False)
        🎜 다음으로 어떤 제품의 판매량이 가장 높은지 분석할 수 있습니다. 🎜rrreee🎜마지막으로 결과를 CSV 파일로 내보낼 수 있습니다. 🎜rrreee

위 내용은 Python에서 데이터 분석을 위해 Pandas를 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 yisu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제