python - 100G超大文件合并排序

Question

目前想实现两个100G文件合并，日志文件，都有日期，日期会有所交集，如一份1日到10日，另一份5日到15日，所以合并后也需要对日期进行排序。 目标是，查询某一时间区段的信息，目前的打算是： 我可以知道每个文件...

阿神 · Answer

提供個想法：我覺得你分割的想法其實挺好的，只是其實並不需要真的分割，你要做的只是維護一個索引檔。是說透過讀一遍文件，每1000條（比方說），將1000條的起始文件偏移和結束偏移更這1000條的起始時間和結束時間關聯起來。這樣你可以得到一個索引檔。

时间1~时间2，文件1，offset1~offset2
时间3~时间4，文件2，offset3~offset4
...

將來你要查詢的時候，先查索引文件，就可以知道需要的資料在哪個文件的什麼區間裡面了。因為你每個文件本身是按時間排序的，所以在建立索引的時候無需排序。

伊谢尔伦 · Answer

這麼大，還要查詢，為什麼要定期轉存到資料庫裡。