알고리즘 설명: 함수 뒤에 달린 코멘트는 내 로컬 테스트에서 1000배의 실행 속도(단위: s)입니다. MD5Hash가 가장 빠르며, 다른 함수보다 훨씬 빠르다는 것을 알 수 있습니다... 하지만 이는 에서도 알 수 있습니다. 이 함수의 알고리즘은 md5 이후 문자열의 처음 7자에만 의존합니다. 즉, 처음 7자가 동일하면 얻은 해시 값은 정확히 동일하므로 실제로 분포가 다릅니다. 별로 신뢰도가 없습니다....32자를 기준으로 계산하면 다른 알고리즘보다 속도가 훨씬 느려집니다... MD5Hash를 제외한 다른 알고리즘은 문자열 길이에 따라 영향을 받습니다. 테스트에는 영어 10자를 사용했습니다. 각 함수의 최종 반환값 $hash % 701819는 해시의 최대 용량을 나타내며, 이는 이러한 해시 함수로 얻은 최종 숫자 범위가 0~701819임을 의미합니다. 이 숫자는 일반적으로 변경될 수 있습니다. 701819 근처에서 제안되는 몇 가지 값은 175447, 350899, 1403641, 2807303, 5614657입니다. 이건 무슨 용도로 쓰일까요... 왜 이러한 해시 알고리즘을 구성하고 테스트해야 합니까? 저는 다중 사용자 블로그를 작성하고 있습니다. 음... 이전 블로그에서 일반적으로 사용하는 기능이 있다고 언급했습니다. 영문과 숫자의 조합입니다. 사용자 이름은 블로그 주소(2차 도메인 이름 또는 디렉토리)로 사용됩니다. 그렇다면 질문이 있습니다. 사용자 이름을 기준으로 사용자 ID를 얻는 방법에 대한 질문이 하나 더 있습니까? 해시 함수를 사용하면 해시 함수를 사용하여 사용자 이름을 처리하고 번호를 얻은 다음 해당 번호에 대해 특정 처리를 수행합니다(2자리를 기준으로 계층적 디렉터리로 나누었습니다. 목적은 너무 방지하는 것입니다). 하나의 디렉터리에 많은 파일을 저장(디스크 검색 속도에 영향을 줌)한 후 경로가 형성되고 해당 ID가 이 경로 아래의 파일에 저장되므로(개인적으로는 사용자 이름을 파일 이름으로 권장합니다) 사용자 이름을 기반으로 사용자 ID를 직접 얻을 수 있으며, 쿼리가 필요하지 않으며 사용자 이름을 파일 이름으로 사용하므로 최종 결과가 동일하더라도 다른 파일에 있으므로 필요가 없습니다. 충돌에 대해 걱정합니다. 물론... 시스템이 전적으로 사용자 이름을 기반으로 작동한다면 = =b 이전에는 이 말을 하지 않았지만 숫자가 문자열보다 빠르기 때문에 SELECT를 조용히 비판하고 싶습니다. 저는 DJB 알고리즘을 선택했습니다. 온라인 상태가 된 후 MD5 배포 테스트가 허용되면 전환을 고려하겠습니다. 여기에서도 해싱이 실제로 배포에 매우 유용하다는 것을 알 수 있습니다. 하하, 캐싱, 정적 또는 분산 저장이 필요한 기타 작업에 사용할 수 있습니다. |