>데이터 베이스 >MySQL 튜토리얼 >PostgreSQL의 pg_trgm 모듈은 어떻게 대규모 데이터 세트에서 유사한 문자열을 효율적으로 찾을 수 있습니까?

PostgreSQL의 pg_trgm 모듈은 어떻게 대규모 데이터 세트에서 유사한 문자열을 효율적으로 찾을 수 있습니까?

Patricia Arquette
Patricia Arquette원래의
2025-01-05 12:29:40540검색

How Can PostgreSQL's pg_trgm Module Efficiently Find Similar Strings in Large Datasets?

PostgreSQL로 빠르게 유사한 문자열 찾기

텍스트 검색의 일반적인 요구 사항 중 하나는 주어진 입력 문자열과 유사한 문자열을 찾는 것입니다. . PostgreSQL은 이러한 목적으로 pg_trgm 모듈을 제공합니다. 그러나 대규모 데이터 세트를 처리할 때 모든 문자열 쌍에 대한 유사성 점수를 계산하는 무차별 접근 방식은 비효율적일 수 있습니다.

기존 접근 방식에서는 gist_trgm_ops를 인덱스 연산자로 사용하여 이름 열에 GiST 인덱스를 생성하는 작업이 포함됩니다. . 이 접근 방식의 문제점은 모든 요소 쌍에 대한 유사성 점수를 계산해야 하므로 2차 시간 복잡도가 발생한다는 것입니다.

더 효율적인 솔루션은 pg_trgm에서 제공하는 % 연산자를 사용하는 것입니다. . pg_trgm.similarity_threshold 매개변수를 미리 정의된 값(예: 0.8)으로 설정하면 최적화 프로그램은 트라이그램 GiST 인덱스를 사용하여 지정된 유사성 임계값보다 낮은 후보 쌍을 필터링할 수 있습니다. 이는 필요한 유사성 계산 횟수를 크게 줄이고 쿼리 성능을 향상시킵니다.

SET pg_trgm.similarity_threshold = 0.8;

SELECT similarity(n1.name, n2.name) AS sim, n1.name, n2.name
FROM   names n1
JOIN   names n2 ON n1.name <> n2.name
               AND n1.name % n2.name
ORDER  BY sim DESC;

이 최적화된 쿼리는 % 연산자를 사용하여 유사성 점수를 계산하기 전에 후보 쌍을 사전 필터링하여 쿼리 성능을 크게 향상시킵니다.

위 내용은 PostgreSQL의 pg_trgm 모듈은 어떻게 대규모 데이터 세트에서 유사한 문자열을 효율적으로 찾을 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.