>데이터 베이스 >Oracle >오라클 데이터 중복 제거

오라클 데이터 중복 제거

WBOY
WBOY원래의
2023-05-18 09:32:071482검색

기업 데이터가 지속적으로 증가함에 따라 중복 데이터는 데이터베이스 관리에서 중요한 문제가 되었습니다. Oracle 데이터베이스에서 중복 데이터는 부정확한 쿼리 결과로 이어지고 저장 공간을 소비하며 데이터베이스 성능에 영향을 미칩니다. 따라서 중복 제거가 필요합니다.

이 기사에서는 Oracle 데이터베이스에서 중복 데이터를 삭제하는 여러 가지 방법을 소개합니다.

방법 1: 하위 쿼리 및 그룹화 사용

중복 데이터를 삭제하기 전에 먼저 중복 데이터가 무엇인지 이해해야 합니다. Oracle 데이터베이스에서는 두 개 이상의 레코드에 모두 동일한 열이 있으면 중복됩니다.

다음은 중복 데이터가 포함된 샘플 테이블입니다.

CREATE TABLE employee(
emp_id NUMBER(6),
first_name VARCHAR2(50),
last_name VARCHAR2(50),
dept_id NUMBER(4)
);

INSERT INTO employee(emp_id, first_name, last_name, dept_id) 
VALUES(1, 'John', 'Doe', 101);

INSERT INTO employee(emp_id, first_name, last_name, dept_id) 
VALUES(2, 'Jane', 'Doe', 102);

INSERT INTO employee(emp_id, first_name, last_name, dept_id) 
VALUES(3, 'John', 'Doe', 101);

INSERT INTO employee(emp_id, first_name, last_name, dept_id) 
VALUES(4, 'Bob', 'Smith', 103);

중복 데이터를 제거하고 각 직원에 대해 하나의 레코드만 유지하려면 다음 SQL 쿼리 문을 사용할 수 있습니다.

DELETE FROM employee
WHERE emp_id IN 
  (SELECT emp_id
   FROM (SELECT emp_id, 
                ROW_NUMBER() OVER (PARTITION BY first_name, last_name, dept_id ORDER BY emp_id) rn
         FROM employee)
   WHERE rn <> 1);

이 SQL 문은 하위 쿼리를 사용합니다. , 이 하위 쿼리는 ROW_NUMBER 함수를 사용하여 각 직원의 첫 번째 행을 식별합니다. 그런 다음 나머지 행을 모두 삭제합니다.

PARTITION BY 문은 각 부서의 행을 그룹화하는 데 사용되며 ORDER BY 문은 emp_id 순서로 행을 정렬하는 데 사용됩니다. ROW_NUMBER 함수를 실행하면 다음과 같은 결과를 얻습니다.

EMP_ID | FIRST_NAME | LAST_NAME | DEPT_ID | RN
-------|------------|-----------|---------|-----
     1 | John       | Doe       |     101 |  1
     2 | Jane       | Doe       |     102 |  1
     3 | John       | Doe       |     101 |  2
     4 | Bob        | Smith     |     103 |  1

여기서 같은 부서에서 John Doe가 1위와 3위에 있는 것을 볼 수 있습니다. 이는 John Doe 레코드가 두 개 있다는 의미입니다. rn이 1이 아닌 모든 행을 제거함으로써 중복 데이터를 제거하고 각 직원에 대해 하나의 행을 유지할 수 있습니다.

방법 2: 임시 테이블 사용

또 다른 방법은 유지해야 하는 데이터를 저장하는 임시 테이블을 사용하는 것입니다. 다음 SQL 쿼리 문을 사용할 수 있습니다.

CREATE TABLE temp_employee AS 
SELECT DISTINCT emp_id, first_name, last_name, dept_id
FROM employee;

이 문은 직원 테이블에서 고유한 emp_id, first_name, last_name 및 dept_id를 선택하여 temp_employee라는 새 테이블에 삽입합니다.

이제 다음 SQL 문을 사용하여 직원 테이블에서 모든 행을 삭제하고 temp_employee 테이블의 행을 다시 직원 테이블로 이동할 수 있습니다.

DELETE FROM employee;

INSERT INTO employee(emp_id, first_name, last_name, dept_id) 
SELECT emp_id, first_name, last_name, dept_id
FROM temp_employee;

이렇게 하면 직원 테이블에서 모든 행이 삭제되고 직원 테이블에서 행이 이동됩니다. temp_employee 테이블 직원 테이블에 삽입합니다. 이제 모든 중복 기록을 제거하고 각 직원에 대해 하나의 행을 유지했습니다.

방법 3: CTE 및 ROW_NUMBER 함수 사용

이것은 ROW_NUMBER 함수를 사용하는 또 다른 방법이지만 공통 표현식(CTE)을 사용합니다. 다음 SQL 쿼리 문을 사용하여 중복 데이터를 제거할 수 있습니다.

WITH emp AS(
  SELECT emp_id, first_name, last_name, dept_id, ROW_NUMBER() OVER(PARTITION BY first_name, last_name, dept_id ORDER BY emp_id) rn
  FROM employee
)
DELETE FROM emp
WHERE rn > 1;

이 문은 삭제해야 하는 모든 레코드를 포함하고 각 그룹의 첫 번째 레코드를 식별하는 일반 표현식 emp를 사용합니다. 그런 다음 DELETE 문을 사용하여 모든 그룹의 나머지 행을 삭제합니다.

결론

오라클 데이터베이스에서는 중복된 데이터를 제거하는 것이 매우 중요합니다. 중복된 데이터는 데이터베이스 성능에 영향을 미치고, 저장 공간을 낭비하며, 부정확한 쿼리 결과로 이어집니다. 이 문서에서는 하위 쿼리 및 그룹화 사용, 임시 테이블 사용, CTE 및 ROW_NUMBER 함수 사용 등 중복 데이터를 제거하는 여러 가지 방법을 설명합니다. 어떤 방법을 선택하든 만일의 경우를 대비해 기록을 삭제하기 전에 반드시 데이터를 백업하세요.

위 내용은 오라클 데이터 중복 제거의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.