Pandas 라이브러리는 Python에서 가장 일반적으로 사용되는 데이터 처리 및 분석 도구 중 하나입니다. 대규모 데이터 세트를 효율적으로 처리하고 분석할 수 있는 풍부한 데이터 구조 및 기능 세트를 제공합니다. 이 기사에서는 Pandas 라이브러리를 가져오고 사용하는 방법을 자세히 소개하고 구체적인 코드 예제를 제공합니다.
1. Pandas 라이브러리 가져오기
Pandas 라이브러리 가져오기는 매우 간단합니다. 코드에 import 문 줄만 추가하면 됩니다.
import pandas as pd
이 코드 줄은 전체 Pandas 라이브러리와 이름을 가져옵니다. pd 는 Pandas 라이브러리를 사용하는 일반적인 방법입니다.
2. Pandas 데이터 구조
Pandas 라이브러리는 Series와 DataFrame이라는 두 가지 주요 데이터 구조를 제공합니다.
- Series
Series는 인덱스가 있는 NumPy 배열과 유사하게 모든 데이터 유형(정수, 부동 소수점 숫자, 문자열 등)을 수용할 수 있는 1차원 레이블 배열입니다. 시리즈는 다음과 같은 방법으로 생성할 수 있습니다:
data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
이 코드는 다음 결과를 출력합니다.
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
Series는 왼쪽이 인덱스, 오른쪽이 값입니다. 시리즈의 요소는 인덱스를 사용하여 액세스하고 조작할 수 있습니다.
- DataFrame
DataFrame은 관계형 데이터베이스의 테이블과 유사한 2차원 테이블 형식 데이터 구조입니다. DataFrame은 다음과 같이 생성할 수 있습니다:
data = {'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 26, 27],
'score': [90, 92, 85]}
df = pd.DataFrame(data)
print(df)
this 코드 조각은 다음과 같은 결과를 출력합니다.
name age score
0 Alice 25 90
1 Bob 26 92
2 Charlie 27 85
위는 DataFrame의 열 이름이며, 각 열은 서로 다른 데이터 유형을 가질 수 있습니다. DataFrame의 데이터는 열 이름과 행 인덱스를 사용하여 액세스하고 조작할 수 있습니다.
3. 데이터 읽기 및 쓰기
Pandas 라이브러리는 CSV, Excel, SQL 데이터베이스 등을 포함한 다양한 데이터 소스에서 데이터 읽기를 지원합니다. 데이터를 읽고 쓰는 방법은 다음과 같습니다.
- CSV 파일 읽기
df = pd.read_csv('data.csv')
그 중 data.csv는 read_csv( ) 메서드 CSV 파일의 데이터를 DataFrame으로 읽을 수 있습니다.
- 엑셀 파일 읽기
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
그 중 data.xlsx는 읽어올 엑셀 파일이고, sheet_name 파라미터는 읽어올 워크시트의 이름을 지정합니다. 읽을 수 있습니다.
- SQL 데이터베이스 읽기
import sqlite3
conn = sqlite3.connect('database.db')
query = 'SELECT * FROM table_name'
df = pd.read_sql(query, conn)
그 중 Database.db는 be 읽을 SQL 데이터베이스 파일이고, table_name은 읽을 테이블의 이름이며, read_sql() 메소드를 사용하여 SQL 쿼리를 실행하고 그 결과를 DataFrame으로 읽을 수 있습니다.
- 데이터 쓰기
df.to_csv('output.csv')
to_csv() 메서드를 사용하여 DataFrame의 데이터를 CSV 파일에 쓸 수 있습니다.
4. 데이터 정리 및 변환
Pandas 라이브러리는 결측값 처리, 데이터 필터링, 데이터 정렬 등을 포함하여 데이터 정리 및 변환을 위한 다양한 기능과 방법을 제공합니다.
- 누락된 값 처리
df.dropna(): 누락된 값이 포함된 행 또는 열 삭제
df.fillna(value): 누락된 값을 지정된 값으로 채우기
df.interpolate(): 선형 보간 기반 알려진 값에 대해 누락된 값 채우기
- 데이터 필터링
df[df['age'] > 25]: 연령이 25보다 큰 행 필터링
df[(df['age'] > 25) & (df ['score'] > ; 90)]: 연령이 25보다 크고 점수가 90보다 큰 행을 필터링합니다. df.sort_index(): 인덱스 기준 정렬 5. 데이터 분석 및 통계 - Pandas 라이브러리는 데이터 분석 및 계산에 사용할 수 있는 풍부한 통계 함수와 방법을 제공합니다.
기술 통계
df.describe(): 평균, 표준 편차, 최소값, 최대값 등을 포함하여 각 열의 기술 통계를 계산합니다.
데이터 집계- df.groupby('name').sum() :이름별로 그룹화하고 각 그룹의 합을 계산합니다
누적 계산- df.cumsum(): 각 열의 누적 합을 계산합니다
상관 분석- df.corr(): 열 간의 상관 계수를 계산합니다
df. (): 열 간의 공분산을 계산합니다.
-
위 내용은 Pandas 라이브러리의 일부 기능과 사용법에 불과합니다. 자세한 사용법은 Pandas 공식 문서를 참조하세요. Pandas 라이브러리가 제공하는 기능을 유연하게 활용함으로써 데이터 처리 및 분석을 효율적으로 수행할 수 있으며, 이후의 머신러닝 및 데이터 마이닝 작업에 강력한 지원을 제공할 수 있습니다.
위 내용은 Pandas 라이브러리를 가져오고 사용하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!