>백엔드 개발 >파이썬 튜토리얼 >Pandas 라이브러리를 가져오고 사용하는 방법에 대한 자세한 설명

Pandas 라이브러리를 가져오고 사용하는 방법에 대한 자세한 설명

WBOY
WBOY원래의
2024-01-24 10:50:061859검색

Pandas 라이브러리를 가져오고 사용하는 방법에 대한 자세한 설명

Pandas 라이브러리는 Python에서 가장 일반적으로 사용되는 데이터 처리 및 분석 도구 중 하나입니다. 대규모 데이터 세트를 효율적으로 처리하고 분석할 수 있는 풍부한 데이터 구조 및 기능 세트를 제공합니다. 이 기사에서는 Pandas 라이브러리를 가져오고 사용하는 방법을 자세히 소개하고 구체적인 코드 예제를 제공합니다.

1. Pandas 라이브러리 가져오기
Pandas 라이브러리 가져오기는 매우 간단합니다. 코드에 import 문 줄만 추가하면 됩니다.

import pandas as pd
이 코드 줄은 전체 Pandas 라이브러리와 이름을 가져옵니다. pd 는 Pandas 라이브러리를 사용하는 일반적인 방법입니다.

2. Pandas 데이터 구조
Pandas 라이브러리는 Series와 DataFrame이라는 두 가지 주요 데이터 구조를 제공합니다.

  1. Series
    Series는 인덱스가 있는 NumPy 배열과 유사하게 모든 데이터 유형(정수, 부동 소수점 숫자, 문자열 등)을 수용할 수 있는 1차원 레이블 배열입니다. 시리즈는 다음과 같은 방법으로 생성할 수 있습니다:

data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
이 코드는 다음 결과를 출력합니다.

0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 ​​​​8.0
dtype: float64
Series는 왼쪽이 인덱스, 오른쪽이 값입니다. 시리즈의 요소는 인덱스를 사용하여 액세스하고 조작할 수 있습니다.

  1. DataFrame
    DataFrame은 관계형 데이터베이스의 테이블과 유사한 2차원 테이블 형식 데이터 구조입니다. DataFrame은 다음과 같이 생성할 수 있습니다:

data = {'name': ['Alice', 'Bob', 'Charlie'],

    'age': [25, 26, 27],
    'score': [90, 92, 85]}

df = pd.DataFrame(data)
print(df)
this 코드 조각은 다음과 같은 결과를 출력합니다.

name  age  score

0 Alice 25 90
1 Bob 26 92
2 Charlie 27 85
위는 DataFrame의 열 이름이며, 각 열은 서로 다른 데이터 유형을 가질 수 있습니다. DataFrame의 데이터는 열 이름과 행 인덱스를 사용하여 액세스하고 조작할 수 있습니다.

3. 데이터 읽기 및 쓰기
Pandas 라이브러리는 CSV, Excel, SQL 데이터베이스 등을 포함한 다양한 데이터 소스에서 데이터 읽기를 지원합니다. 데이터를 읽고 쓰는 방법은 다음과 같습니다.

  1. CSV 파일 읽기
    df = pd.read_csv('data.csv')
    그 중 data.csv는 read_csv( ) 메서드 CSV 파일의 데이터를 DataFrame으로 읽을 수 있습니다.
  2. 엑셀 파일 읽기
    df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
    그 중 data.xlsx는 읽어올 엑셀 파일이고, sheet_name 파라미터는 읽어올 워크시트의 이름을 지정합니다. 읽을 수 있습니다.
  3. SQL 데이터베이스 읽기
    import sqlite3
    conn = sqlite3.connect('database.db')
    query = 'SELECT * FROM table_name'
    df = pd.read_sql(query, conn)
    그 중 Database.db는 be 읽을 SQL 데이터베이스 파일이고, table_name은 읽을 테이블의 이름이며, read_sql() 메소드를 사용하여 SQL 쿼리를 실행하고 그 결과를 DataFrame으로 읽을 수 있습니다.
  4. 데이터 쓰기
    df.to_csv('output.csv')
    to_csv() 메서드를 사용하여 DataFrame의 데이터를 CSV 파일에 쓸 수 있습니다.

4. 데이터 정리 및 변환
Pandas 라이브러리는 결측값 처리, 데이터 필터링, 데이터 정렬 등을 포함하여 데이터 정리 및 변환을 위한 다양한 기능과 방법을 제공합니다.

  1. 누락된 값 처리
    df.dropna(): 누락된 값이 포함된 행 또는 열 삭제 ​​
    df.fillna(value): 누락된 값을 지정된 값으로 채우기 ​​
    df.interpolate(): 선형 보간 기반 알려진 값에 대해 누락된 값 채우기 ​​
  2. 데이터 필터링
    df[df['age'] > 25]: 연령이 25보다 큰 행 필터링
    df[(df['age'] > 25) & (df ['score'] > ; 90)]: 연령이 25보다 크고 점수가 90보다 큰 행을 필터링합니다. df.sort_index(): 인덱스 기준 정렬
  3. 5. 데이터 분석 및 통계
  4. Pandas 라이브러리는 데이터 분석 및 계산에 사용할 수 있는 풍부한 통계 함수와 방법을 제공합니다.

    기술 통계
    df.describe(): 평균, 표준 편차, 최소값, 최대값 등을 포함하여 각 열의 기술 통계를 계산합니다.
  5. 데이터 집계
  6. df.groupby('name').sum() :이름별로 그룹화하고 각 그룹의 합을 계산합니다
  7. 누적 계산
  8. df.cumsum(): 각 열의 누적 합을 계산합니다
  9. 상관 분석
  10. df.corr(): 열 간의 상관 계수를 계산합니다
    df. (): 열 간의 공분산을 계산합니다.

  11. 위 내용은 Pandas 라이브러리의 일부 기능과 사용법에 불과합니다. 자세한 사용법은 Pandas 공식 문서를 참조하세요. Pandas 라이브러리가 제공하는 기능을 유연하게 활용함으로써 데이터 처리 및 분석을 효율적으로 수행할 수 있으며, 이후의 머신러닝 및 데이터 마이닝 작업에 강력한 지원을 제공할 수 있습니다.

위 내용은 Pandas 라이브러리를 가져오고 사용하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.