>데이터 베이스 >MySQL 튜토리얼 >특정 데이터의 우선 순위를 지정하면서 대규모 MySQL 데이터베이스에서 중복 항목을 효율적으로 제거하려면 어떻게 해야 합니까?

특정 데이터의 우선 순위를 지정하면서 대규모 MySQL 데이터베이스에서 중복 항목을 효율적으로 제거하려면 어떻게 해야 합니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2025-01-01 09:29:09973검색

How Can I Efficiently Remove Duplicates from a Large MySQL Database While Prioritizing Specific Data?

대규모 MySQL 데이터베이스에서 효율적인 중복 제거

대규모 MySQL 데이터베이스를 중복되지 않게 유지하는 것은 데이터 무결성과 성능을 위해 매우 중요합니다. 그러나 중복 항목을 식별하고 제거하는 것은 광범위한 테이블의 경우 어려운 작업이 될 수 있습니다. 사용자가 직면하는 일반적인 과제 중 하나는 수백만 개의 행이 포함된 대규모 데이터베이스에서 중복 항목을 신속하게 제거해야 한다는 것입니다. 여기서 중복 제거는 종종 시간이 많이 걸리는 프로세스가 될 수 있습니다.

중복 제거 시 발생하는 일반적인 시나리오에는 테이블이 포함됩니다. 열 id, text1, text2 및 text3이 있으며 여기서 text1과 text2의 조합은 고유해야 합니다. 중복된 항목이 있는 경우 text3에 대해 NULL이 아닌 값을 가진 조합 하나만 남아 있어야 합니다. 예를 들어, 데이터가 다음과 같다면:

| id | text1 | text2 | text3 |
| --- | ----- | ----- | ----- |
| 1   | abc   | def   | NULL   |
| 2   | abc   | def   | ghi    |
| 3   | abc   | def   | jkl    |
| 4   | aaa   | bbb   | NULL   |
| 5   | aaa   | bbb   | NULL   |

...원하는 결과는 다음과 같습니다:

| id | text1 | text2 | text3 |
| --- | ----- | ----- | ----- |
| 1   | abc   | def   | ghi   |
| 2   | aaa   | bbb   | NULL  |

CREATE TABLE tmp SELECT text1, text2, text3 FROM my_tbl; GROUP BY 텍스트1, 텍스트2; 또는 SELECT DISTINCT는 소규모 데이터베이스에서 작동할 수 있지만 대규모 테이블을 처리할 때 실행 시간이 길어지는 경우가 많습니다.

이 문제를 해결하기 위한 효율적인 접근 방식은 중복 키와 ifnull()의 조합을 사용하는 것입니다.

create table tmp like yourtable;

alter table tmp add unique (text1, text2);

insert into tmp select * from yourtable
    on duplicate key update text3 = ifnull(text3, values(text3));

rename table yourtable to deleteme, tmp to yourtable;

drop table deleteme;

이 접근 방식은 최적화된 전략을 사용합니다. 원본 테이블과 유사한 새 테이블 tmp를 생성합니다. 그런 다음 text1 및 text2에 고유 제약 조건을 추가하여 고유성을 적용합니다. 그 후, 중복 키 절을 활용하여 테이블의 데이터가 tmp에 삽입됩니다. 이 절을 사용하면 중복 행이 발견될 경우 새 데이터의 text3 열이 기존 값보다 우선적으로 적용됩니다. 프로세스를 마무리하기 위해 원래 yourtable의 이름은 deleteme로 바뀌고, tmp의 이름은 yourtable로 바뀌어 이전 테이블을 중복 없는 데이터로 효과적으로 대체합니다. 마지막으로 deleteme 테이블이 삭제됩니다.

이 방법을 사용하면 GROUP BY 또는 DISTINCT와 같이 계산 비용이 많이 드는 작업이 필요하지 않으며 MySQL의 정교한 쿼리 최적화 기능을 활용합니다. 결과적으로 실행 시간이 크게 향상되어 대규모 데이터베이스에서도 신속하게 중복 제거가 가능합니다.

위 내용은 특정 데이터의 우선 순위를 지정하면서 대규모 MySQL 데이터베이스에서 중복 항목을 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.