データフレームの列の正規化
データセットでは、異なる列の値の範囲が異なるのが一般的です。これにより、データの比較と分析が困難になる可能性があります。列を正規化すると、列が共通の範囲 (通常は 0 ~ 1) にスケールされ、比較と分析が容易になります。
人気のデータ分析ライブラリである Pandas で列を正規化する 1 つの方法は、平均正規化です。これには、各値から平均を減算し、その結果を標準偏差で割ることが含まれます。これにより、式:
normalized_df = (df - df.mean()) / df.std()
に見られるように、値が平均 0 と標準偏差 1 に変換されます。あるいは、最小-最大正規化を使用することもできます。このメソッドは、列の最小値と最大値に基づいて値をスケールします。 min-max 正規化の式は次のとおりです。
normalized_df = (df - df.min()) / (df.max() - df.min())
いずれかの方法を適用するには、データフレームで提供された式を使用するだけです。 Pandas は関数を列ごとに自動的に適用し、各列を個別に正規化します。
以上が比較と分析のためにデータフレーム内の列を正規化する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。