首頁 >後端開發 >php教程 >給定a、b兩個文件，各存放50億個url，每個url各佔用64字節，內存限制是4G，如何找出a、b文件共同的url？

給定a、b兩個文件，各存放50億個url，每個url各佔用64字節，內存限制是4G，如何找出a、b文件共同的url？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2016-08-08 09:32:501419瀏覽

可以估計每個檔案的大小為5G*64=300G，遠大於4G。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。
遍歷檔案a，對每個url求取hash(url)%1000，然後根據所得值將url分別儲存到1000個小檔案（設為a0,a1,...a999）當中。這樣每個小檔案的大小約為300M。遍歷檔案b，採取和a相同的方法將url分別儲存到1000個小檔案(b0,b1....b999)。這樣處理後，所有可能相同的url都在對應的小文件(a0 vs b0, a1 vs b1....a999 vs b999)當中，不對應的小文件（例如a0 vs b99）不可能有相同的url。然後我們只要求出1000對小檔案中相同的url即可。
例如對於a0 vs b0，我們可以遍歷a0，將其中的url儲存到hash_map當中。然後遍歷b0，如果url在hash_map中，則說明此url在a和b中同時存在，保存到文件中即可。
如果分成的小文件不均勻，導致有些小文件太大（比如大於2G），可以考慮將這些太大的小文件再按類似的方法分成小小文件即可昨天百度面試官問道的今天研究一下

以上就介紹了給定a、b兩個文件，各存放50億個url，每個url各佔用64字節，內存限制是4G，如何找出a、b文件共同的url？，包括了方面的內容，希望對PHP教程有興趣的朋友有所幫助。

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：[錯誤]載入共用程式庫時出錯：libpcre.so.1 解決下一篇：[錯誤]載入共用程式庫時出錯：libpcre.so.1 解決

看更多

給定a、b兩個文件，各存放50億個url，每個url各佔用64字節，內存限制是4G，如何找出a、b文件共同的url？

相關文章