Rumah  >  Artikel  >  pangkalan data  >  Bagaimanakah saya boleh mengira jarak Hamming dengan cekap antara rentetan binari dalam SQL?

Bagaimanakah saya boleh mengira jarak Hamming dengan cekap antara rentetan binari dalam SQL?

Linda Hamilton
Linda Hamiltonasal
2024-10-25 06:11:29851semak imbas

How can I efficiently calculate Hamming distance between binary strings in SQL?

Pengiraan Jarak Hamming pada Rentetan Binari dalam SQL

Pernyataan Masalah:

Jadual pangkalan data sering menyimpan cincang SHA256 sebagai nilai binari. Jarak Hamming, yang mewakili bilangan perbezaan bitwise antara dua cincang, adalah metrik penting untuk analisis persamaan. Artikel ini bertujuan untuk menyediakan penyelesaian SQL untuk mengira jarak Hamming antara nilai yang diberikan dan setiap cincang dalam lajur yang ditentukan.

Pendekatan Tidak Cekap Sedia Ada:

Memecah rentetan binari kepada ketulan integer yang lebih kecil, pengiraan Jarak Hamming untuk setiap bongkah, dan kemudian menjumlahkan hasilnya ialah kaedah yang menyusahkan dan terhad prestasi.

Pendekatan Dipertingkat:

Menyimpan cincang dalam berbilang lajur BIGINT dan bukannya satu lajur BINARI dengan ketara bertambah baik prestasi. Ini membolehkan penciptaan fungsi tersuai yang boleh mengira jarak Hamming dengan cekap antara berbilang nilai BIGINT.

Fungsi Jarak Hamming untuk BIGINTs:

Fungsi tersuai berikut boleh dibuat untuk mengira jarak Hamming antara empat BIGINTs:

<code class="sql">CREATE FUNCTION HAMMINGDISTANCE(
  A0 BIGINT, A1 BIGINT, A2 BIGINT, A3 BIGINT, 
  B0 BIGINT, B1 BIGINT, B2 BIGINT, B3 BIGINT
)
RETURNS INT DETERMINISTIC
RETURN 
  BIT_COUNT(A0 ^ B0) +
  BIT_COUNT(A1 ^ B1) +
  BIT_COUNT(A2 ^ B2) +
  BIT_COUNT(A3 ^ B3);</code>

Contoh Penggunaan:

Dengan fungsi ini, anda boleh mengisih entri jadual mengikut jarak Hamming mereka kepada nilai yang disediakan menggunakan pertanyaan berikut:

<code class="sql">SELECT * FROM table 
  ORDER BY HAMMINGDISTANCE(col0, col1, col2, col3, UNHEX(<insert supplied sha256 hash here>)) ASC 
  LIMIT 10</code>

Kesimpulan:

Memisahkan cincang SHA256 kepada empat lajur BIGINT dan menggunakan fungsi tersuai ialah pendekatan yang sangat cekap untuk mengira jarak Hamming dalam SQL. Kaedah ini meningkatkan prestasi dengan ketara berbanding menyimpan cincang sebagai nilai BINARI dan menggunakan pengiraan berasaskan integer konvensional.

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengira jarak Hamming dengan cekap antara rentetan binari dalam SQL?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn