演算法說明: 函數後面註解中是我本地測試的執行1000次的速度(單位:s),可以看出來MD5Hash是最快的,而且要比其他函數快很多很多...但是從這個函數的演算法也可以看出來,它只是依賴md5後字串的前7個字符,也就是說如果前7個字符相同的話那麼獲得的hash值是完全一樣的,所以實際上來說它的分佈情況是不太令人信任的....如果按照32個字來計算的話速度那就遠遠的慢於其他算法了... 除了MD5Hash,其他演算法都會受到字串長度的影響,越長越慢,我測試用的是10個字元的英文。 每個函數最後的return $hash % 701819; 中701819 表示是哈希的最大容積,也就是說這些哈希函數最後得到的數字範圍是0~701819,這個數字是可以改的一般認為使用一個大的質數結果的分佈會是比較均勻的,在701819 附近的幾個建議的值是:175447, 350899, 1403641, 2807303, 5614657。 這到底可以用來做什麼... 為什麼要整理and 測試這些雜湊演算法,我在寫多用戶Blog,恩...之前的日誌裡面也有提過,多用戶Blog 一般都有一個功能,那就是使用一個英文和數字組合的使用者名稱來作為Blog 的位址(二級網域或目錄)。那麼就有一個問題了,如何根據使用者名稱來取得使用者的 ID,多一次查詢嗎?有了哈希函數就不用了,使用哈希函數處理用戶名,得到一個數字,再對數字做一定的處理(我是按照2位分割成層次的目錄,目的是防止一個目錄下有太多的文件而影響磁碟檢索速度),然後就形成了一個路徑,把對應的ID保存在這個路徑下的文件內(我個人推薦用戶名做文件名),這樣就可以根據用戶名來直接獲得用戶的ID ,不需要查詢,用戶名做文件名,所以即使最後結果相同也是在不同的文件中,所以可以不用擔心出現碰撞。 當然...如果你的系統完全是根據用戶名來操作那當我前面這些都沒說 = =b,悄悄的非議一句 SELECT 也是數字比字符串要快一些地。 我選擇的是DJB演算法,等以後上線後如果測試MD5分佈還算可以接受的話再考慮換用。 從這裡也可以看出來其實哈希對於分佈還是很有用地,呵呵,可以用來作緩存,靜態或者其他需要分佈存儲的東西上面。 |