Introduction
Lorsque vous travaillez avec des bases de données, en particulier dans des environnements où de grands ensembles de données sont constamment modifiés ou ajoutés, il est courant de rencontrer des données en double. Cela peut entraîner des inefficacités dans les performances des requêtes, des incohérences des données et des rapports inexacts. Heureusement, MySQL fournit des outils robustes pour identifier et supprimer ces doublons.
Dans ce blog, je vais vous présenter une approche efficace et complète pour détecter et supprimer les enregistrements en double dans une base de données MySQL. Les méthodes présentées ici sont applicables à la plupart des systèmes de bases de données relationnelles, mais nous nous concentrerons sur MySQL pour ce didacticiel.
Qu'est-ce qui constitue un doublon ?
Avant de plonger dans le code, il est crucial de définir ce qui est considéré comme un doublon. Dans de nombreux cas, les doublons ne sont pas simplement des enregistrements dans lesquels toutes les colonnes ont des valeurs identiques. Souvent, les doublons peuvent avoir les mêmes valeurs dans un sous-ensemble de colonnes clés. Par exemple, dans une table utilisateurs, deux enregistrements peuvent avoir le même e-mail mais différer dans d'autres champs comme le nom d'utilisateur ou la date d'inscription.
Par souci de simplicité, dans ce didacticiel, nous supposerons que les doublons sont des lignes dans lesquelles toutes les colonnes (ou un sous-ensemble de colonnes) correspondent.
Prenons l'exemple d'employés de table suivant :
id | first_name | last_name | salary | |
---|---|---|---|---|
1 | John | Doe | john@example.com | 60000 |
2 | Jane | Smith | jane@example.com | 65000 |
3 | John | Doe | john@example.com | 60000 |
4 | Alex | Johnson | alex@example.com | 72000 |
5 | John | Doe | john@example.com | 60000 |
ここでは、id = 1、id = 3、および id = 5 の行が重複しています。私たちの目標は、コピーを 1 つだけ残して削除することです。
重複を削除するためのステップバイステップ ガイド
1. 重複レコードを特定する
最初のステップは、どのレコードが重複しているかを特定することです。これを行うには、一意である必要がある列ごとにレコードをグループ化する必要があります。この場合、first_name、last_name、および email の組み合わせが一意であると仮定しましょう。
次のクエリを使用して重複を検索できます:
SELECT first_name, last_name, email, COUNT(*) FROM employees GROUP BY first_name, last_name, email HAVING COUNT(*) > 1;
このクエリは、first_name、last_name、および email 列に基づいてレコードをグループ化し、複数出現するグループ (つまり、重複) のみを表示します。
2. 保持または削除する重複行を選択します
重複を特定したら、それらを削除する方法が必要です。一般的なアプローチは、最小または最大の ID を持つレコードを保持し、その他のレコードを削除することです。 自己結合を使用してこれを実行し、各重複レコードを保持したいレコードと照合します。
例:
DELETE e1 FROM employees e1 JOIN employees e2 ON e1.first_name = e2.first_name AND e1.last_name = e2.last_name AND e1.email = e2.email AND e1.id > e2.id;
このクエリは次のように機能します:
- レコードの first_name、last_name、および email が同じである従業員テーブルに対して 自己結合 を実行します。
- これにより、最小の ID を持つレコードを保持しながら、より高い ID (後で挿入されたことを意味する) を持つ行のみが削除されることが保証されます。
3. より複雑なシナリオには一時テーブルを使用します
状況によっては、最新のsignup_date や最高給与のレコードを保持するなど、どの重複を保持するかを決定するためのより複雑な条件が必要になる場合があります。
そのような場合は、一時テーブルを使用して保持したい行を保存し、他のすべてを削除できます。
例:
CREATE TEMPORARY TABLE temp_employees AS SELECT * FROM employees e1 WHERE e1.id IN ( SELECT MIN(id) FROM employees GROUP BY first_name, last_name, email ); DELETE FROM employees WHERE id NOT IN (SELECT id FROM temp_employees);
このクエリの動作は次のとおりです:
- first_name、last_name、および email の組み合わせごとに 1 つの一意のレコード (この場合は、最小の ID を持つレコード) のみを含む一時テーブル temp_employees を作成します。
- temp_employees テーブルに存在しないすべてのレコードを元のemployees テーブルから削除します。
このメソッドは、どの重複を保持するかを決定するための基準が、単に ID を使用するよりも複雑な場合に役立ちます。
4. 将来の重複を防ぐために固有の制約を追加します
重複をクリーンアップしたら、重複の発生を防ぐことをお勧めします。これを実現するには、一意制約を関連する列に追加します。
たとえば、同じ first_name、last_name、および email を持つ今後の行を防ぐには:
ALTER TABLE employees ADD CONSTRAINT unique_employee UNIQUE (first_name, last_name, email);
これにより、重複レコードを挿入しようとした場合にデータベースがエラーをスローすることが保証され、データの整合性が維持されます。
パフォーマンスに関する考慮事項
大規模なデータセットを操作する場合、重複の削除は時間がかかり、リソースを大量に消費する可能性があります。パフォーマンスを最適化するためのヒントをいくつか紹介します:
- インデックス作成: フィルタリングに関係する列 (first_name、last_name、email など) がインデックス付けされていることを確認してください。これにより、プロセスが大幅に高速化されます。
- バッチ削除: 多数の行を削除する場合は、長時間のロックを回避し、サーバーの負荷を軽減するために、バッチで実行することを検討してください。
一括削除の例:
DELETE e1 FROM employees e1 JOIN employees e2 ON e1.first_name = e2.first_name AND e1.last_name = e2.last_name AND e1.email = e2.email AND e1.id > e2.id LIMIT 1000;
すべての重複が削除されるまで、このクエリを複数回実行できます。
結論
MySQL データベース内の重複レコードの処理は一般的なタスクであり、処理を誤るとデータの損失や結果の一貫性の欠如につながる可能性があります。このブログで説明する手順を使用すると、データの整合性を維持しながら、自信を持って効率的に重複を削除できます。さらに、一意の制約を追加することで、今後の重複を確実に防止し、クリーンで信頼性の高いデータセットを維持することができます。
以上がMySQL データベースから重複データを削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

javaachievesplatformentenceTheTheTheJavavirtualMachine(JVM)、CodetorunondifferentoperatingSystemswithOutModification.thejvmcompilesjavacodeplatform-IndopentedbyTecodeを承認することを許可します

javaispowerfulfulduetoitsplatformindepentence、object-orientednature、richstandardlibrary、performancecapability、andstrongsecurityfeatures.1)platformendependenceallowseplicationStorunonaydevicesupportingjava.2)オブジェクト指向のプログラマン型

上位のJava関数には、次のものが含まれます。1)オブジェクト指向プログラミング、サポートポリ型、コードの柔軟性と保守性の向上。 2)例外処理メカニズム、トライキャッチ式ブロックによるコードの堅牢性の向上。 3)ゴミ収集、メモリ管理の簡素化。 4)ジェネリック、タイプの安全性の向上。 5)コードをより簡潔で表現力豊かにするためのAMBDAの表現と機能的なプログラミング。 6)最適化されたデータ構造とアルゴリズムを提供するリッチ標準ライブラリ。

javaisnotentirelylylyplatformedent dueTojvmvariations andNativeCodeIntegration、ButlargelyHoldSitsworapromise.1)JavacompilestobyteCoderunbythejvm、Cross-Platformexecution.2を許可します

thejavavirtualmachine(jvm)isanabstractcomputingmachineculucialforjavaexecutionsiTrunsjavabytecode、「writeonce、runaynay "capability

JavaremainsagoodlanguagedueToitscontinuousevolution androbustecosystem.1)lambdaexpressionsenhancecodereadability andenableFunctionalprogramming.2)streamsalowsolowsolfisitydataprocessing、特に特にlagedatasets.3)硬化系系統系系統系系統系系統

Javaisgreatduetoitsplatformindependence、robustoopsupport、extensiveLibraries、andstrongCommunity.1)PlatformentepenteviajvMallowsCodeTorunonVariousPlatforms.2)oopeatureSlikeEncapsulation、遺伝、およびポリモ系系統型皮下皮質皮下Rich

Javaの5つの主要な特徴は、多型、Lambda Expressions、StreamSapi、ジェネリック、例外処理です。 1。多型により、さまざまなクラスのオブジェクトを一般的なベースクラスのオブジェクトとして使用できます。 2。Lambda式は、コードをより簡潔にし、特にコレクションやストリームの処理に適しています。 3.ストリームサピは、大規模なデータセットを効率的に処理し、宣言操作をサポートします。 4.ジェネリックは、タイプの安全性と再利用性を提供し、型刻印中にタイプエラーがキャッチされます。 5.例外処理は、エラーをエレガントに処理し、信頼できるソフトウェアを作成するのに役立ちます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

WebStorm Mac版
便利なJavaScript開発ツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境
