>데이터 베이스 >MySQL 튜토리얼 >PostgreSQL에서 유사한 문자열을 어떻게 효율적으로 찾을 수 있습니까?

PostgreSQL에서 유사한 문자열을 어떻게 효율적으로 찾을 수 있습니까?

Barbara Streisand
Barbara Streisand원래의
2025-01-06 03:51:40555검색

How Can I Efficiently Find Similar Strings in PostgreSQL?

PostgreSQL에서 효율적으로 유사한 문자열 찾기

소개: 대규모 데이터 세트에서 유사한 문자열을 찾으면 다음을 사용할 때 성능 문제가 발생할 수 있습니다. 전통적인 방법. 이 기사에서는 PostgreSQL의 pg_trgm 모듈을 사용하여 검색 프로세스 속도를 크게 높이는 솔루션을 제시합니다.

SET pg_trgm.similarity_threshold 및 % 연산자 사용:

귀하가 제공한 쿼리 과도한 유사성 계산으로 인해 어려움을 겪고 있습니다. 효율성을 높이려면 SET pg_trgm.similarity_threshold 구성 매개변수와 % 연산자를 활용하세요.

SET pg_trgm.similarity_threshold = 0.8;

SELECT similarity(n1.name, n2.name) AS sim, n1.name, n2.name
FROM names n1
JOIN names n2 ON n1.name <> n2.name
AND n1.name % n2.name
ORDER BY sim DESC;

이 접근 방식은 트라이그램 GiST 인덱스를 활용하여 검색 속도를 크게 높입니다.

기능 활용 인덱스:

성능을 더욱 향상하려면 다음을 사용하는 것이 좋습니다. 교차 조인 전에 가능한 일치 항목을 사전 필터링하는 기능적 인덱스입니다. 그러면 다음 쿼리에서 볼 수 있듯이 필요한 유사성 계산 수가 줄어듭니다.

CREATE FUNCTION first_char(text) RETURNS text AS $$
  SELECT substring(, 1, 1);
$$ LANGUAGE SQL;

CREATE INDEX first_char_idx ON names (first_char(name));
SELECT similarity(n1.name, n2.name) AS sim, n1.name, n2.name
FROM names n1
JOIN names n2 ON first_char(n1.name) = first_char(n2.name)
AND n1.name <> n2.name
ORDER BY sim DESC;

결론:

pg_trgm 모듈을 사용하면 SET pg_trgm .similarity_threshold, % 연산자 및 기능적 인덱스를 사용하면 유사한 항목을 찾는 성능을 획기적으로 향상시킬 수 있습니다. 대규모 데이터 세트의 경우에도 PostgreSQL의 문자열.

위 내용은 PostgreSQL에서 유사한 문자열을 어떻게 효율적으로 찾을 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.