>  기사  >  데이터 베이스  >  SQL에서 이진 문자열 간의 해밍 거리를 효율적으로 계산하려면 어떻게 해야 합니까?

SQL에서 이진 문자열 간의 해밍 거리를 효율적으로 계산하려면 어떻게 해야 합니까?

Linda Hamilton
Linda Hamilton원래의
2024-10-25 06:11:29851검색

How can I efficiently calculate Hamming distance between binary strings in SQL?

SQL의 이진 문자열에 대한 해밍 거리 계산

문제 설명:

데이터베이스 테이블은 종종 SHA256 해시를 이진 값으로 저장합니다. 두 해시 사이의 비트별 차이 수를 나타내는 해밍 거리는 유사성 분석에 중요한 지표입니다. 이 문서의 목적은 주어진 값과 지정된 열의 각 해시 사이의 해밍 거리를 계산하는 SQL 솔루션을 제공하는 것입니다.

기존의 비효율적인 접근 방식:

이진 문자열을 더 작은 정수 덩어리로 나누는 것, 각 청크에 대한 해밍 거리를 계산한 다음 결과를 합산하는 것은 번거롭고 성능이 제한되는 방법입니다.

향상된 접근 방식:

해시를 단일 BINARY 열 대신 여러 BIGINT 열에 저장하면 성능이 크게 향상됩니다. 성능. 이를 통해 여러 BIGINT 값 간의 해밍 거리를 효율적으로 계산할 수 있는 사용자 정의 함수를 생성할 수 있습니다.

BIGINT에 대한 해밍 거리 함수:

다음 사용자 정의 함수를 생성하여 두 BIGINT 값 사이의 해밍 거리를 계산할 수 있습니다. 4개의 BIGINT:

<code class="sql">CREATE FUNCTION HAMMINGDISTANCE(
  A0 BIGINT, A1 BIGINT, A2 BIGINT, A3 BIGINT, 
  B0 BIGINT, B1 BIGINT, B2 BIGINT, B3 BIGINT
)
RETURNS INT DETERMINISTIC
RETURN 
  BIT_COUNT(A0 ^ B0) +
  BIT_COUNT(A1 ^ B1) +
  BIT_COUNT(A2 ^ B2) +
  BIT_COUNT(A3 ^ B3);</code>

사용 예:

이 함수를 사용하면 다음 쿼리를 사용하여 해밍 거리를 기준으로 테이블 항목을 제공된 값으로 정렬할 수 있습니다.

<code class="sql">SELECT * FROM table 
  ORDER BY HAMMINGDISTANCE(col0, col1, col2, col3, UNHEX(<insert supplied sha256 hash here>)) ASC 
  LIMIT 10</code>

결론:

SHA256 해시를 4개의 BIGINT 열로 분할하고 사용자 정의 함수를 사용하는 것은 SQL에서 해밍 거리를 계산하는 매우 효율적인 접근 방식입니다. 이 방법은 해시를 BINARY 값으로 저장하고 기존 정수 기반 계산을 사용하는 것보다 성능을 크게 향상시킵니다.

위 내용은 SQL에서 이진 문자열 간의 해밍 거리를 효율적으로 계산하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.