ホームページ >バックエンド開発 >Python チュートリアル >データを整理するための次のテクニックを学びましょう: Pandas の複製方法の簡単な紹介
Pandas 重複排除手法の紹介: これらの手法を使用してデータをクリーンにする方法を学びます。具体的なコード例が必要です。
概要:
方法 1:drop_duplicates()
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}df = pd.DataFrame(data)drop_duplicates() メソッドを使用して重複行を削除しますdf.drop_duplicates(inplace= True )print(df)上記のコードを実行すると、重複行が削除された DataFrame が取得されます。
方法 2:duplicated() と ~ 演算子
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}df = pd.DataFrame(data)重複行を削除するには、duplicated() と ~ 演算子を使用しますdf = df[ ~df.duplicated()]print(df)上記のコードを実行すると、前の方法と同じ結果が得られます。
メソッド 3: サブセット パラメーター
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'], 'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}df = pd.DataFrame(data)サブセット パラメーターを使用して、特定の列の重複行を削除しますdf.drop_duplicates( subset= ['A', 'B'], inplace=True)print(df)上記のコードを実行すると、列に基づいて重複行を削除した結果が得られます。 A' と 'B' 。
方法 4: パラメータを保持する
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}df = pd.DataFrame(data)keep パラメータを使用して最後の重複値を保持しますdf.drop_duplicates(keep = 'last', inplace=True)print(df)上記のコードを実行すると、最後の重複値が保持された結果が得られます。
方法 5: 主キーを使用して重複を削除する
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'], 'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}df = pd.DataFrame(data)set_index() メソッドを使用して、「A」列と「B」列を主キーとして設定します。次に、drop_duplicates( ) メソッドを使用して重複行を削除します。
df.set_index(['A', 'B'], inplace=True)
概要:
以上がデータを整理するための次のテクニックを学びましょう: Pandas の複製方法の簡単な紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。