ホームページ >バックエンド開発 >Python チュートリアル >Python のデータ ラングリング手法

Python のデータ ラングリング手法

PHPz
PHPzオリジナル
2023-06-10 18:28:381270ブラウズ

Python はデータ サイエンスの分野で広く使用されている高水準プログラミング言語であり、データの収集、クリーニング、分析、視覚化に広く使用されています。データ ラングリングはデータ処理の中核となるスキルです。この記事では、読者がデータをより適切に処理および分析できるように、Python での一般的なデータ ラングリング テクニックをいくつか紹介します。

  1. データ型変換

データの正則化のプロセスでは、さまざまなデータ型を変換する必要があることがよくあります。一般的なデータ型には、文字列、整数、浮動小数点数などがあります。 . やブール値など。 Python には、int()、float()、str()、bool() などの強力な型変換関数が用意されており、あるデータ型を別のデータ型に変換できます。例:

# 将字符串转换成整数
age_str = '18'
age_int = int(age_str)

# 将整数转换成字符串
age_int = 18
age_str = str(age_int)

# 将浮点数转换成整数
height_float = 1.75
height_int = int(height_float)

# 将整数转换成布尔值
num = 0
is_zero = bool(num)     # False
  1. データ重複排除

大量のデータを処理する場合、重複データが発生する可能性があるため、データ重複排除技術を使用する必要があります。 Python で set() 関数を使用すると、リストから重複要素をすばやく削除できます。たとえば、次のようになります。

# 去除列表中的重复元素
lst = [1, 2, 3, 2, 4, 1]
lst_unique = list(set(lst))
print(lst_unique)       # [1, 2, 3, 4]
  1. データ充填

データの正規化のプロセスでは、後続の処理を改善するために欠損値が埋められる必要があります。 Python で fillna() 関数を使用すると、データを簡単に入力できます。例:

# 对缺失值进行填充
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'age': [18, None, 21],
                   'gender': ['F', 'M', None]})

df_fill = df.fillna(value={'age': df['age'].mean(),
                           'gender': 'U'})
print(df_fill)

出力結果は次のとおりです:

       name   age gender
0     Alice  18.0      F
1       Bob  19.5      M
2  Charlie  21.0      U
  1. データの再整形
#In データ キュレーション プロセス中に、その後の処理を改善するためにデータの再形成が必要になる場合があります。 Python で pivot() 関数を使用すると、データを簡単に再構成できます。例:

# 数据重塑
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'gender': ['F', 'M', 'M'],
                   'subject': ['Math', 'Math', 'English'],
                   'score': [90, 87, 88]})

df_res = df.pivot(index='name', columns='subject', values='score')
print(df_res)

出力結果は次のとおりです:

subject  English  Math
name                  
Alice        NaN  90.0
Bob          NaN  87.0
Charlie     88.0   NaN

    データ マージ
In 実際の運用では、通常、データは別のテーブルに格納されているため、マージする必要があります。 Python で merge() 関数を使用すると、データのマージが容易になります。例:

# 数据合并
import pandas as pd

df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                    'age': [18, 19, 21],
                    'gender': ['F', 'M', 'M']})
df2 = pd.DataFrame({'name': ['Alice', 'Bob'],
                    'score': [90, 87]})

df_merge = pd.merge(df1, df2, on='name')
print(df_merge)

出力結果は次のとおりです:

       name  age gender  score
0     Alice   18      F     90
1       Bob   19      M     87

要約すると、Python のデータ整形スキルにはデータ型変換が含まれます。データ重複排除、データ充填、データ再整形、データ結合など。これらの手法は、読者がデータをより適切に処理および分析し、データ処理の効率と精度を向上させるのに役立ちます。

以上がPython のデータ ラングリング手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。