>백엔드 개발 >파이썬 튜토리얼 >Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행합니다.

Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행합니다.

王林
王林원래의
2024-01-09 09:26:071584검색

Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행합니다.

Pandas는 다양한 유형의 데이터 파일을 쉽게 읽고 처리할 수 있는 강력한 데이터 분석 도구입니다. 그중 CSV 파일은 가장 일반적이고 일반적으로 사용되는 데이터 파일 형식 중 하나입니다. 이 기사에서는 Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행하는 방법을 소개하고 구체적인 코드 예제를 제공합니다.

1. 필요한 라이브러리 가져오기
먼저 아래와 같이 Pandas 라이브러리와 필요할 수 있는 기타 관련 라이브러리를 가져와야 합니다.

import pandas as pd

2. CSV 파일 읽기
Pandas의 read_csv() 함수를 사용하여 CSV 파일을 읽으십시오. 함수에서 CSV 파일의 경로를 매개변수로 제공해야 하며, 예는 다음과 같습니다:

data = pd.read_csv('data.csv')

위 코드에서는 CSV 파일의 이름이 data.csv이고 다음 위치에 있다고 가정합니다. Python 코드 파일과 동일한 디렉터리입니다. 실제 상황에 따라 경로를 수정할 수 있습니다.

3. 데이터의 이해
데이터를 분석하기 전에 먼저 데이터의 기본 상황을 이해해야 합니다. Pandas는 데이터에 대한 관련 정보를 신속하게 얻는 데 도움이 되는 다양한 방법을 제공합니다.

  1. 데이터의 처음 몇 행 보기
    head() 함수를 사용하면 데이터의 처음 5개 행이 기본적으로 표시됩니다.
print(data.head())
  1. 데이터의 기본 정보 보기
    info() 함수 사용 각 열의 데이터 유형, null이 아닌 값의 개수 등 데이터의 기본 정보를 볼 수 있습니다.
print(data.info())
  1. 보기 데이터의 통계 요약
    개수, 평균, 표준 차이, 최소값, 25%, 중앙값, 75%, 최대값 등을 포함한 데이터의 통계 요약을 얻으려면 설명() 함수를 사용하세요.
print(data.describe())

IV. 데이터 분석
데이터를 분석하기 전에 누락된 값 처리, 이상값 처리 등 데이터에 대한 일부 전처리를 수행해야 할 수도 있습니다. 여기서는 데이터가 전처리되었으며 데이터에 누락된 값이나 이상값이 없다고 가정합니다.

다음은 일반적으로 사용되는 데이터 분석 작업의 예입니다.

  1. 특정 열의 합계를 계산합니다.
    특정 열의 합계를 계산하려면 sum() 함수를 사용하세요. 예는 다음과 같습니다.
total = data['column_name'].sum()
print('The total is:', total)

위 코드에서는 계산할 실제 열의 이름을 "column_name"으로 지정합니다.

  1. 특정 열의 평균 계산
    특정 열의 평균을 계산하려면mean() 함수를 사용하세요. 예시는 다음과 같습니다.
average = data['column_name'].mean()
print('The average is:', average)
  1. 특정 열의 최대값과 최소값을 계산합니다
    max() 및 min() 함수를 사용하세요. 특정 열의 최대값과 최소값을 별도로 계산할 수 있습니다. 예시는 다음과 같습니다.
max_value = data['column_name'].max()
min_value = data['column_name'].min()
print('The maximum value is:', max_value)
print('The minimum value is:', min_value)
  1. 특정 열의 고유한 값을 계산합니다.
    특정 열의 고유한 값을 계산하는 고유() 함수는 다음과 같습니다.
unique_values = data['column_name'].unique()
print('The unique values are:', unique_values)

5. 결과 저장
분석 결과를 저장해야 하는 경우 to_csv() 함수를 사용할 수 있습니다. 결과를 CSV 파일로 저장하는 방법은 다음과 같습니다.

result.to_csv('result.csv', index=False)

위 코드에서는 분석 결과를 result.csv 파일로 저장합니다.

6. 요약
이 글에서는 Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행하는 방법을 소개합니다. 먼저 필요한 라이브러리를 import한 후, read_csv() 함수를 통해 CSV 파일을 읽고, head(), info(), explain() 함수를 사용하여 데이터의 기본 상황을 파악했습니다. 다음으로 열의 합계, 평균, 최대값, 최소값을 계산하고 열의 고유값을 계산하는 등 데이터 분석 작업의 몇 가지 예를 제공합니다. 마지막으로 분석 결과를 CSV 파일로 저장하는 방법도 소개했습니다. 이 기사가 데이터 분석에 Pandas를 사용하는 데 더 익숙해지는 데 도움이 되기를 바랍니다.

위 내용은 Pandas가 CSV 파일을 읽고 데이터 분석을 수행하는 방법에 대한 소개입니다. 도움이 되길 바랍니다.

위 내용은 Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.