Pandas 라이브러리 공통 기능 소개 및 자세한 사용법
소개:
pandas는 유연하고 효율적인 오픈 소스 데이터 분석 및 운영 도구로 데이터 과학, 기계 학습, 금융, 통계 및 기타 분야에서 널리 사용됩니다. . 이 글에서는 독자들이 팬더를 더 잘 이해하고 사용할 수 있도록 돕기 위해 팬더 라이브러리에서 일반적으로 사용되는 기능과 사용법을 소개합니다.
1. 데이터 구조 소개
시리즈는 팬더의 가장 기본적인 데이터 구조 중 하나입니다. 모든 데이터 유형(정수, 부동 소수점 수)을 포함할 수 있습니다. , 문자열 등). 생성 방법은 다음과 같습니다.
import pandas as pd data = [1, 2, 3, 4, 5] s = pd.Series(data) print(s)
출력 결과:
0 1 1 2 2 3 3 4 4 5 dtype: int64
DataFrame은 Pandas에서 가장 일반적으로 사용되는 데이터 구조로 간주할 수 있는 2차원 테이블 형식의 데이터 구조입니다. 여러개의 시리즈로 구성되어 있습니다. 생성 방법은 다음과 같습니다.
import pandas as pd data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'London', 'Tokyo']} df = pd.DataFrame(data) print(df)
출력 결과:
name age city 0 Alice 25 New York 1 Bob 30 London 2 Charlie 35 Tokyo
2. 공통 함수 소개 및 상세 사용법
head() 함수는 처음 몇 행을 보는 데 사용됩니다. DataFrame의 기본 보기는 5개 행 이전입니다. tail() 함수는 DataFrame의 마지막 몇 행을 보는 데 사용되며 기본적으로 마지막 5개 행이 표시됩니다. 샘플 코드는 다음과 같습니다.
import pandas as pd df = pd.read_csv('data.csv') print(df.head()) print(df.tail())
shape 속성은 DataFrame의 모양, 즉 행과 열의 개수를 반환합니다. 샘플 코드는 다음과 같습니다.
import pandas as pd df = pd.read_csv('data.csv') print(df.shape)
info() 함수는 열 이름, Null이 아닌 값의 개수, 데이터 유형 등을 포함하여 DataFrame의 전체 정보를 보는 데 사용됩니다. 샘플 코드는 다음과 같습니다.
import pandas as pd df = pd.read_csv('data.csv') print(df.info())
describe() 함수는 DataFrame의 숫자 열에 대한 통계 정보(개수, 평균, 표준편차, 최소값, 최대값 등)를 계산하는 데 사용됩니다. . 샘플 코드는 다음과 같습니다.
import pandas as pd df = pd.read_csv('data.csv') print(df.describe())
sort_values() 함수는 지정된 열의 값을 기준으로 DataFrame을 정렬하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.
import pandas as pd df = pd.read_csv('data.csv') df_sorted = df.sort_values(by='age', ascending=False) # 按照age列的值进行降序排序 print(df_sorted)
groupby() 함수는 지정된 열별로 그룹화하고 그룹화된 결과를 집계하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.
import pandas as pd df = pd.read_csv('data.csv') grouped = df.groupby('city') mean_age = grouped['age'].mean() # 计算每个城市的平均年龄 print(mean_age)
merge() 함수는 지정된 열에 따라 두 개의 DataFrame을 병합하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.
import pandas as pd df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}) df2 = pd.DataFrame({'A': [2, 3, 4], 'C': ['x', 'y', 'z']}) merged = pd.merge(df1, df2, on='A') # 按照列A合并 print(merged)
apply() 함수는 DataFrame의 각 요소에 사용자 정의 함수를 적용하는 데 사용됩니다. 샘플 코드는 다음과 같습니다.
import pandas as pd df = pd.read_csv('data.csv') # 定义一个自定义函数:将年龄加上10 def add_ten(age): return age + 10 df['age'] = df['age'].apply(add_ten) # 对age列的每个元素应用add_ten函数 print(df)
결론:
이 기사에서는 Series 및 DataFrame의 기본 작업, 데이터 통계, 정렬, 그룹화, 병합 및 사용자 정의 기능 응용 프로그램을 포함하여 팬더 라이브러리에서 일반적으로 사용되는 기능과 사용법을 간략하게 소개합니다. , 등. 이 글의 도입을 통해 독자들이 pandas 라이브러리를 더 잘 이해하고 사용하며 데이터 분석 및 처리에 더 큰 역할을 할 수 있기를 바랍니다.
위 내용은 Pandas 라이브러리에서 일반적으로 사용되는 기능의 소개 및 사용법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!