집 >데이터 베이스 >MySQL 튜토리얼 >PostgreSQL에서 유사한 문자열을 어떻게 효율적으로 찾을 수 있습니까?

PostgreSQL에서 유사한 문자열을 어떻게 효율적으로 찾을 수 있습니까?

Barbara Streisand원래의: 2025-01-06 03:51:40620검색

How Can I Efficiently Find Similar Strings in PostgreSQL?

PostgreSQL에서 효율적으로 유사한 문자열 찾기

소개: 대규모 데이터 세트에서 유사한 문자열을 찾으면 다음을 사용할 때 성능 문제가 발생할 수 있습니다. 전통적인 방법. 이 기사에서는 PostgreSQL의 pg_trgm 모듈을 사용하여 검색 프로세스 속도를 크게 높이는 솔루션을 제시합니다.

SET pg_trgm.similarity_threshold 및 % 연산자 사용:

귀하가 제공한 쿼리 과도한 유사성 계산으로 인해 어려움을 겪고 있습니다. 효율성을 높이려면 SET pg_trgm.similarity_threshold 구성 매개변수와 % 연산자를 활용하세요.

SET pg_trgm.similarity_threshold = 0.8;

SELECT similarity(n1.name, n2.name) AS sim, n1.name, n2.name
FROM names n1
JOIN names n2 ON n1.name <> n2.name
AND n1.name % n2.name
ORDER BY sim DESC;

이 접근 방식은 트라이그램 GiST 인덱스를 활용하여 검색 속도를 크게 높입니다.

기능 활용 인덱스:

성능을 더욱 향상하려면 다음을 사용하는 것이 좋습니다. 교차 조인 전에 가능한 일치 항목을 사전 필터링하는 기능적 인덱스입니다. 그러면 다음 쿼리에서 볼 수 있듯이 필요한 유사성 계산 수가 줄어듭니다.

CREATE FUNCTION first_char(text) RETURNS text AS $$
  SELECT substring(, 1, 1);
$$ LANGUAGE SQL;

CREATE INDEX first_char_idx ON names (first_char(name));

SELECT similarity(n1.name, n2.name) AS sim, n1.name, n2.name
FROM names n1
JOIN names n2 ON first_char(n1.name) = first_char(n2.name)
AND n1.name <> n2.name
ORDER BY sim DESC;

결론:

pg_trgm 모듈을 사용하면 SET pg_trgm .similarity_threshold, % 연산자 및 기능적 인덱스를 사용하면 유사한 항목을 찾는 성능을 획기적으로 향상시킬 수 있습니다. 대규모 데이터 세트의 경우에도 PostgreSQL의 문자열.

위 내용은 PostgreSQL에서 유사한 문자열을 어떻게 효율적으로 찾을 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

for using operator number this postgresql

성명：

이전 기사：외래 키는 SQL Server의 쿼리 성능에 어떤 영향을 줍니까?다음 기사：외래 키는 SQL Server의 쿼리 성능에 어떤 영향을 줍니까?