ホームページ  >  記事  >  バックエンド開発  >  データ視覚化に Python 正規表現を使用する方法

データ視覚化に Python 正規表現を使用する方法

WBOY
WBOYオリジナル
2023-06-23 12:22:50951ブラウズ

Python 正規表現は、テキスト データを処理するための強力なツールです。正規表現は、テキストからデータを抽出、変換、視覚化するのに役立ちます。この記事では、Python 正規表現を使用してデータを視覚化する方法を紹介します。

  1. 関連ライブラリのインポート

開始する前に、必要な Python ライブラリ (Pandas、Matplotlib、Re) をインストールする必要があります。 pipを使用してインストールできます。

pip install pandas matplotlib re

次に、これらのライブラリを Python ファイルにインポートする必要があります。

import pandas as pd
import matplotlib.pyplot as plt
import re
  1. データの読み取り

この記事では、インフルエンザのパンデミック中の収入と支出に関するデータを含むスプレッドシート ファイルを使用します。まず、pandas ライブラリの read_excel 関数を使用して、スプレッドシート ファイルのデータを読み取る必要があります。

df = pd.read_excel('data.xlsx')
  1. データ前処理

正規表現を使用してデータを視覚化する前に、いくつかのデータ前処理操作を実行する必要があります。この記事では、次の 2 つの前処理手順について説明します。

  • データの書式を解除する: スプレッドシート ファイルの各セルには、通貨値やパーセンテージなどの書式設定されたデータが含まれる場合があります。次のステップに進むには、これらのフォーマットされたデータをフォーマット解除する必要があります。
  • データの抽出: 視覚化するには、各セルからデータを抽出する必要があります。正規表現を使用して特定のデータを抽出できます。

次の関数はデータの書式を解除できます:

def strip_currency(val):
    return re.sub(r'[^d.]', '', val)

次の関数は特定のデータを抽出できます:

def extract_number(val):
    return re.findall(r'd+.?d*', val)[0]

次の関数は、apply 関数を使用してスプレッドシートに適用できます。それぞれの細胞。上記の関数を適用するコードは次のとおりです:

df['income'] = df['income'].apply(strip_currency).apply(extract_number).astype(float)
df['expenses'] = df['expenses'].apply(strip_currency).apply(extract_number).astype(float)
  1. データの視覚化

各セルからデータをフォーマット解除して抽出したら、Matplotlib ライブラリを使用できるようになります。それを視覚化します。この記事では、散布図を使用して収入と支出の関係を表します。

plt.scatter(df['income'], df['expenses'])
plt.xlabel('Income')
plt.ylabel('Expenses')
plt.show()

このコードは、横軸に収入、縦軸に支出をとった散布図を作成します。

これは、データ視覚化に Python 正規表現を使用する方法の基本的な手順です。データをより深く理解するために、必要に応じてデータの処理と視覚化を続けることができます。

以上がデータ視覚化に Python 正規表現を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。