用PHP读取超大文件的实例代码_PHP-php教程-PHP中文网

首页

后端开发

php教程

用PHP读取超大文件的实例代码_PHP

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 01, 2016 pm 12:11 PM

去年年底的各种网站帐号信息的数据库泄漏，很是给力啊，趁机也下载了几个数据库，准备学学数据分析家来分析一下这些帐号信息。虽然这些数据信息都已经被“整理”过的，不过自己拿来学习也挺有用的，毕竟有这么大的数据量。

数据量大带来的问题就是单个文件很大，能够打开这个文件相当不容易，记事本就不要指望了，果断死机。用MSSQL的客户端也打不开这么大的SQL文件，直接报内存不足，原因据说是MSSQL在读取数据的时候，是一次性地将读取到的数据放在内存中，如果数据量过大，而内存不足，则会直接导致系统瘫掉。

Navicat Premium
这儿推荐一个软件Navicat Premium，相当给力啊，几百兆的SQL文件轻松就打开了，一点都不卡。而且这个客户端软件支持MSSQL、MYSQL、Oracle……等等各种数据库的连接，其它的很多功能就自己慢慢研究了。

虽然用Navicat可以打开CSDN这个274MB的SQL文件，但是内容却是没意义的，而且也不方便对这些帐号信息进行查询、分类、统计等等操作。唯一的方法就是把这些数据一条一条地读取出来，然后分拆每条记录的不同片段，再将这些片段以数据字段的格式存入数据库，这样就可以方便以后的使用了。

使用PHP读取超大文件
PHP有很多种文件读取的方式，根据目标文件的不同，采取更合适的方法，可有效地提高执行效率。由于CSDN数据库文件很大，所以我们尽量不在短时间内全都读取出来，毕竟每读取一条数据还要对其分拆和写入操作。那么比较合适的方式就是对文件进行分区域地读取，通过使用PHP的fseek和fread相结合，即可做到随意读取文件中的某一部份数据，下面是实例代码：

复制代码代码如下:
function readBigFile($filename, $count = 20, $tag = "\r\n") {
$content = "";//最终内容
$current = "";//当前读取内容寄存
$step= 1;//每次走多少字符
$tagLen = strlen($tag);
$start = 0;//起始位置
$i = 0;//计数器
$handle = fopen($filename,'r+');//读写模式打开文件，指针指向文件起始位置
while($i fseek($handle, $start, SEEK_SET);//指针设置在文件开头
$current = fread($handle,$step);//读取文件
$content .= $current;//组合字符串
$start += $step;//依据步长向前移动
//依据分隔符的长度截取字符串最后免得几个字符
$substrTag = substr($content, -$tagLen);
if ($substrTag == $tag) { //判断是否为判断是否是换行或其他分隔符
$i++;
$content .= "
";
}
}
//关闭文件
fclose($handle);
//返回结果
return $content;
}
$filename = "csdn.sql";//需要读取的文件
$tag = "\n";//行分隔符注意这里必须用双引号
$count = 100;//读取行数
$data = readBigFile($filename,$count,$tag);
echo $data;

关于函数传入的变量$tag的值，根据系统不一样，传入的值也是有区别的：Windows用”\r\n”，linux/unix用”\n”，Mac OS用”\r”。

程序执行的大概流程：先定义读取文件的一些基础变量，然后打开文件，将指针定位在文件的指定位置，并读取指定大小的内容。每读取一次将内容存储在变量中，直到达到读取要求的行数或文件结束。

绝不要假定程序中的一切都将按计划运行。

根据上面的代码，虽然能够得到文件中指定位置、指定大小的数据，但这整个过程只执行了一次，并不能得到所有的数据。其实要得到所有的数据，可以在这个循环的外层再添加判断文件是否结束的循环，但这很浪费系统资源，甚至由于文件过大一直没法读完而导致PHP执行超时。另一种方法就是记录并存储上次读取数据后指针所在的位置，然后再次执行该循环的时候，将指针定位在上次结束的位置，这样就不存在一次循环要把文件从头读到尾的情况。

其实CSDN这个数据库我到现在都还没有导入数据库，因为当时泄漏后没几天CNBETA上就有一个分析了，呵呵，动作太快了。当看到别人已经做了这个事之后，自动就没有多少动力来做了，不过为了学习，还是要抽时间把这个事完成了。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

解释负载平衡如何影响会话管理以及如何解决。Apr 29, 2025 am 12:42 AM

负载均衡会影响会话管理，但可以通过会话复制、会话粘性和集中式会话存储解决。1.会话复制在服务器间复制会话数据。2.会话粘性将用户请求定向到同一服务器。3.集中式会话存储使用独立服务器如Redis存储会话数据，确保数据共享。

说明会话锁定的概念。Apr 29, 2025 am 12:39 AM

Sessionlockingisatechniqueusedtoensureauser'ssessionremainsexclusivetooneuseratatime.Itiscrucialforpreventingdatacorruptionandsecuritybreachesinmulti-userapplications.Sessionlockingisimplementedusingserver-sidelockingmechanisms,suchasReentrantLockinJ

有其他PHP会议的选择吗？Apr 29, 2025 am 12:36 AM

PHP会话的替代方案包括Cookies、Token-basedAuthentication、Database-basedSessions和Redis/Memcached。1.Cookies通过在客户端存储数据来管理会话，简单但安全性低。2.Token-basedAuthentication使用令牌验证用户，安全性高但需额外逻辑。3.Database-basedSessions将数据存储在数据库中，扩展性好但可能影响性能。4.Redis/Memcached使用分布式缓存提高性能和扩展性，但需额外配