>백엔드 개발 >파이썬 튜토리얼 >데이터 시각화를 위해 Python 정규식을 사용하는 방법

데이터 시각화를 위해 Python 정규식을 사용하는 방법

WBOY
WBOY원래의
2023-06-23 12:22:50981검색

Python 정규식은 텍스트 데이터를 처리하는 강력한 도구입니다. 정규식은 텍스트에서 데이터를 추출, 변환 및 시각화하는 데 도움이 됩니다. 이 기사에서는 데이터 시각화를 위해 Python 정규식을 사용하는 방법을 소개합니다.

  1. 관련 라이브러리 가져오기

시작하기 전에 필요한 Python 라이브러리인 Pandas, Matplotlib 및 Re를 설치해야 합니다. pip를 사용하여 설치할 수 있습니다.

pip install pandas matplotlib re

그런 다음 이러한 라이브러리를 Python 파일로 가져와야 합니다.

import pandas as pd
import matplotlib.pyplot as plt
import re
  1. 데이터 읽기

이 기사에서는 팬데믹 기간 동안의 수입과 지출에 대한 데이터가 포함된 스프레드시트 파일을 사용합니다. 먼저, 스프레드시트 파일의 데이터를 읽으려면 pandas 라이브러리의 read_excel 함수를 사용해야 합니다.

df = pd.read_excel('data.xlsx')
  1. 데이터 전처리

정규 표현식을 사용하여 데이터를 시각화하기 전에 몇 가지 데이터 전처리 작업을 수행해야 합니다. 이 문서에서는 다음 두 가지 전처리 단계를 설명합니다.

  • 데이터 형식 해제: 스프레드시트 파일의 각 셀에는 통화 값, 백분율 등과 같은 형식이 지정된 데이터가 포함될 수 있습니다. 다음 단계로 진행하려면 이러한 형식이 지정된 데이터의 형식을 해제해야 합니다.
  • 데이터 추출: 시각화하려면 각 셀에서 데이터를 추출해야 합니다. 정규식을 사용하여 특정 데이터를 추출할 수 있습니다.

다음 함수는 데이터 형식을 해제할 수 있습니다.

def strip_currency(val):
    return re.sub(r'[^d.]', '', val)

다음 함수는 특정 데이터를 추출할 수 있습니다.

def extract_number(val):
    return re.findall(r'd+.?d*', val)[0]

적용 함수를 사용하여 스프레드시트의 각 셀에 적용할 수 있습니다. 위 함수를 적용하는 코드는 다음과 같습니다.

df['income'] = df['income'].apply(strip_currency).apply(extract_number).astype(float)
df['expenses'] = df['expenses'].apply(strip_currency).apply(extract_number).astype(float)
  1. Visualizing data

각 셀의 형식을 해제하고 데이터를 추출한 후에는 이제 Matplotlib 라이브러리를 사용하여 시각화할 수 있습니다. 이번 글에서는 소득과 지출의 관계를 산점도를 사용하여 표현해 보겠습니다.

plt.scatter(df['income'], df['expenses'])
plt.xlabel('Income')
plt.ylabel('Expenses')
plt.show()

이 코드는 가로 축에 수입, 세로 축에 지출이 있는 산점도를 만듭니다.

이것이 데이터 시각화를 위해 Python 정규식을 사용하는 방법에 대한 기본 단계입니다. 데이터를 더 잘 이해하기 위해 필요에 따라 데이터를 계속 처리하고 시각화할 수 있습니다.

위 내용은 데이터 시각화를 위해 Python 정규식을 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.