データ クリーニングは、データ分析の重要な側面の 1 つです。多くの場合、データ内に無効または間違ったデータ行がいくつかあります。これらのデータは、入力エラー、システム障害、またはエラーによって引き起こされる可能性があります。その他の理由。 。データ分析プロセス中に、分析結果の正確性を確保するために、これらの無効なデータをクリーンアップする必要があります。 Pandas は、Python でのデータ処理と分析のための強力なツールです。データを処理するための豊富な関数とメソッドが提供されます。無効な行データを削除するのに役立つ実践的なスキルがいくつかあります。
1.欠損値を含む行データを削除する
実際のデータでは欠損値、つまり一部のフィールドの値がNaN(Not a Number)となることがよくあります。これらのデータ行を処理しない場合、その後の分析結果は不正確になります。 Pandas は、欠損値を含む行を削除するために、dropna() メソッドを提供します。
具体的なコード例:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, None, 25, 30], 'Gender': ['M', 'M', None, 'M']} df = pd.DataFrame(data) # 删除含有缺失值的行数据 df.dropna(inplace=True) print(df)
実行結果:
Name Age Gender 0 Tom 20.0 M
上記の例では、欠損値を含む DataFrame を作成し、dropna() メソッドを使用して削除しました。欠損値を含む行データ。 Dropna() メソッドのパラメータ inplace=True は、新しい DataFrame を返さずに元の DataFrame を変更することを意味します。実行結果では、欠損値を含む行データが削除されていることがわかります。
2. 条件を満たす行データを削除する
特定の条件を満たす行データのみを削除したい場合があります。 Pandas は、ブール インデックスの使用、query() メソッドの使用など、この要件を満たすさまざまなメソッドを提供します。一般的に使用される 2 つの方法を次に示します。
(1) ブール型インデックスの使用
ブール型インデックスを作成することで、削除する必要がある行データを選択できます。具体的なコード例は次のとおりです。
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用布尔索引删除满足条件的行数据 df = df[~(df['Age'] > 25)] print(df)
実行結果:
Name Age 0 Tom 20 1 Nick 25
上記の例では、年齢データを含む DataFrame を作成し、ブール インデックスを使用して条件を満たすものを削除しました。 「年齢が 25 歳以上」の行データ。実行結果では、条件を満たす行データが削除されていることがわかります。
(2) query() メソッドを使用する
pandas には、特定の条件を満たす行データをフィルタリングするための query() メソッドが用意されています。具体的なコード例は次のとおりです。
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用query()方法删除满足条件的行数据 df = df.query('Age <= 25') print(df)
実行結果:
Name Age 0 Tom 20 1 Nick 25
上記の例では、年齢データを含む DataFrame を作成し、query() メソッドを使用して Line データを削除しました。 25インチより大きい。実行結果では、条件を満たす行データが削除されていることがわかります。
3. 概要
データ クリーニング プロセス中に、pandas はデータを処理するための豊富な関数とメソッドを提供しますが、上記のコード例はその一部にすぎません。実際のアプリケーションでは、特定の状況に応じて行データを削除するためのさまざまな方法を採用することもできます。これらの方法を使用する場合は、データ クリーニングの精度と有効性を確保するために、データの構造と分析のニーズを慎重に検討する必要があります。
以上がデータ クリーニング ツール: パンダの行データを削除するための実践的なヒントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。