>  기사  >  백엔드 개발  >  Pandas 라이브러리에서 일반적으로 사용되는 기능의 소개 및 사용법에 대한 자세한 설명

Pandas 라이브러리에서 일반적으로 사용되는 기능의 소개 및 사용법에 대한 자세한 설명

WBOY
WBOY원래의
2024-01-24 10:19:171397검색

Pandas 라이브러리에서 일반적으로 사용되는 기능의 소개 및 사용법에 대한 자세한 설명

Pandas 라이브러리 공통 기능 소개 및 자세한 사용법

소개:

pandas는 유연하고 효율적인 오픈 소스 데이터 분석 및 운영 도구로 데이터 과학, 기계 학습, 금융, 통계 및 기타 분야에서 널리 사용됩니다. . 이 글에서는 독자들이 팬더를 더 잘 이해하고 사용할 수 있도록 돕기 위해 팬더 라이브러리에서 일반적으로 사용되는 기능과 사용법을 소개합니다.

1. 데이터 구조 소개

  1. 시리즈(시퀀스)

시리즈는 팬더의 가장 기본적인 데이터 구조 중 하나입니다. 모든 데이터 유형(정수, 부동 소수점 수)을 포함할 수 있습니다. , 문자열 등). 생성 방법은 다음과 같습니다.

import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)

출력 결과:

0    1
1    2
2    3
3    4
4    5
dtype: int64
  1. DataFrame(데이터 프레임)

DataFrame은 Pandas에서 가장 일반적으로 사용되는 데이터 구조로 간주할 수 있는 2차원 테이블 형식의 데이터 구조입니다. 여러개의 시리즈로 구성되어 있습니다. 생성 방법은 다음과 같습니다.

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35],
        'city': ['New York', 'London', 'Tokyo']}
df = pd.DataFrame(data)
print(df)

출력 결과:

      name  age      city
0    Alice   25  New York
1      Bob   30    London
2  Charlie   35     Tokyo

2. 공통 함수 소개 및 상세 사용법

  1. head() 및 tail()

head() 함수는 처음 몇 행을 보는 데 사용됩니다. DataFrame의 기본 보기는 5개 행 이전입니다. tail() 함수는 DataFrame의 마지막 몇 행을 보는 데 사용되며 기본적으로 마지막 5개 행이 표시됩니다. 샘플 코드는 다음과 같습니다.

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())
print(df.tail())
  1. shape 속성

shape 속성은 DataFrame의 모양, 즉 행과 열의 개수를 반환합니다. 샘플 코드는 다음과 같습니다.

import pandas as pd

df = pd.read_csv('data.csv')
print(df.shape)
  1. info() 함수

info() 함수는 열 이름, Null이 아닌 값의 개수, 데이터 유형 등을 포함하여 DataFrame의 전체 정보를 보는 데 사용됩니다. 샘플 코드는 다음과 같습니다.

import pandas as pd

df = pd.read_csv('data.csv')
print(df.info())
  1. describe() 함수

describe() 함수는 DataFrame의 숫자 열에 대한 통계 정보(개수, 평균, 표준편차, 최소값, 최대값 등)를 계산하는 데 사용됩니다. . 샘플 코드는 다음과 같습니다.

import pandas as pd

df = pd.read_csv('data.csv')
print(df.describe())
  1. sort_values() 함수

sort_values() 함수는 지정된 열의 값을 기준으로 DataFrame을 정렬하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.

import pandas as pd

df = pd.read_csv('data.csv')
df_sorted = df.sort_values(by='age', ascending=False)  # 按照age列的值进行降序排序
print(df_sorted)
  1. groupby() 함수

groupby() 함수는 지정된 열별로 그룹화하고 그룹화된 결과를 집계하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.

import pandas as pd

df = pd.read_csv('data.csv')
grouped = df.groupby('city')
mean_age = grouped['age'].mean()  # 计算每个城市的平均年龄
print(mean_age)
  1. merge() 함수

merge() 함수는 지정된 열에 따라 두 개의 DataFrame을 병합하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': ['a', 'b', 'c']})
df2 = pd.DataFrame({'A': [2, 3, 4],
                    'C': ['x', 'y', 'z']})
merged = pd.merge(df1, df2, on='A')  # 按照列A合并
print(merged)
  1. apply() 함수

apply() 함수는 DataFrame의 각 요소에 사용자 정의 함수를 적용하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.

import pandas as pd

df = pd.read_csv('data.csv')

# 定义一个自定义函数:将年龄加上10
def add_ten(age):
    return age + 10

df['age'] = df['age'].apply(add_ten)  # 对age列的每个元素应用add_ten函数
print(df)

결론:

이 기사에서는 Series 및 DataFrame의 기본 작업, 데이터 통계, 정렬, 그룹화, 병합 및 사용자 정의 기능 응용 프로그램을 포함하여 팬더 라이브러리에서 일반적으로 사용되는 기능과 사용법을 간략하게 소개합니다. , 등. 이 글의 도입을 통해 독자들이 pandas 라이브러리를 더 잘 이해하고 사용하며 데이터 분석 및 처리에 더 큰 역할을 할 수 있기를 바랍니다.

위 내용은 Pandas 라이브러리에서 일반적으로 사용되는 기능의 소개 및 사용법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.