Pandas가 Excel 파일을 읽고 데이터를 처리하는 방법
소개:
Pandas는 일반적으로 사용되는 데이터 처리 및 분석 도구로 사용자가 데이터를 정리, 변환 및 분석할 수 있도록 다양한 기능과 방법을 제공합니다. 실제 업무에서는 엑셀 형식의 데이터 파일을 처리해야 하는 경우가 많습니다. 이번 글에서는 Pandas를 사용하여 엑셀 파일을 읽고 데이터를 처리하고 분석하는 방법을 소개하겠습니다.
1. Pandas 라이브러리 설치 및 가져오기
시작하기 전에 먼저 Pandas 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 pip를 통해 Pandas를 설치할 수 있습니다.
pip install pandas
설치가 완료된 후 다음 코드를 통해 Pandas 라이브러리를 가져올 수 있습니다.
import pandas as pd
2. Excel 파일 읽기
Excel을 읽는 데 일반적으로 사용되는 두 가지 방법이 있습니다. 파일: read_excel() 및 read_csv(). 이번 글에서는 read_excel() 메소드를 사용하여 엑셀 파일을 읽어보겠습니다.
Excel 파일 이름이 data.xlsx이고 Sheet1이라는 워크시트가 포함되어 있다고 가정합니다. 다음 코드를 사용하여 Excel 파일을 읽을 수 있습니다.
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
읽기가 완료된 후 데이터는 DataFrame 개체 df에 저장됩니다.
3. 데이터 처리 및 분석
Excel 파일을 읽은 후 Pandas의 다양한 기능과 방법을 사용하여 데이터를 정리, 변환 및 분석할 수 있습니다.
데이터 보기
다음 코드를 사용하여 데이터의 처음 몇 행을 볼 수 있습니다.
print(df.head())
기본 통계
describe() 함수를 사용하여 다음과 같은 데이터의 기본 통계를 볼 수 있습니다. 최소값, 최대값, 평균값 등 :
print(df.describe())
데이터 필터링
다음 코드를 사용하여 조건을 충족하는 데이터의 하위 집합을 필터링할 수 있습니다.
subset = df[df['列名'] > 50] print(subset)
데이터 정렬
다음 코드를 사용할 수 있습니다. 특정 열을 기준으로 오름차순으로 정렬하는 등 데이터를 정렬하는 sort_values() 함수:
sorted_df = df.sort_values(by='列名', ascending=True) print(sorted_df)
데이터 그룹화
groupby() 함수를 사용하여 데이터를 그룹화하고 합계, 평균 등의 집계 작업을 수행할 수 있습니다. , etc.:
grouped_df = df.groupby('列名').sum() print(grouped_df)
데이터 시각화
Pandas에서 제공하는plot() 함수를 사용하여 데이터를 그룹화할 수 있습니다. 세로 막대형 차트, 선 차트 등 그리기 등의 시각화를 수행합니다.
df.plot(kind='bar', x='列名', y='列名')
4. 저장 결과
데이터 처리 및 분석을 완료한 후 다음 코드를 사용하여 결과를 Excel 파일에 저장할 수 있습니다.
df.to_excel('result.xlsx', index=False)
요약:
이 기사에서는 Pandas를 사용하여 Excel 파일을 읽고 데이터를 처리하는 방법을 소개하고 코드를 제공합니다. 예. Pandas의 강력한 기능과 방법을 통해 Excel 데이터를 쉽게 정리, 변환 및 분석하여 데이터 처리의 효율성과 정확성을 향상시킬 수 있습니다.
위 내용은 Pandas가 Excel 파일을 읽고 데이터를 처리하는 방법에 대한 소개입니다. 독자들에게 도움이 되기를 바랍니다. 읽어 주셔서 감사합니다!
위 내용은 Pandas를 사용하여 Excel 파일을 읽고 처리하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!