PHP에서 대용량 파일을 읽는 방법은 무엇입니까? 다음 기사에서는 PHP를 사용하여 대용량 파일을 읽는 방법을 소개합니다. 도움이 되길 바랍니다.
PHP 개발자로서 우리는 메모리 관리에 대해 걱정할 필요가 없습니다. PHP 엔진은 우리 뒤에서 청소 작업을 훌륭하게 수행하며 임시 실행 컨텍스트의 웹 서버 모델은 가장 엉성한 코드라도 지속적인 영향을 미치지 않음을 의미합니다.
드물게 편안함의 경계를 벗어나야 할 수도 있습니다. 예를 들어 생성할 수 있는 가장 작은 VPS에서 대규모 프로젝트를 위해 Composer를 실행하려고 할 때 또는 똑같이 작은 서버에서 대용량 파일을 읽어야 할 때입니다. .
이것은 이 튜토리얼에서 논의할 질문입니다.
이 튜토리얼의 코드는 여기 GitHub에서 찾을 수 있습니다.
코드 개선이 효과가 있는지 확인하는 유일한 방법은 나쁜 상황을 측정하고 개선 사항을 적용한 후 측정한 방법과 비교하는 것입니다. 즉, 그것이 우리에게 얼마나 도움이 될지 (전혀 없다면) 알지 않는 한, "해결책"이 해결책인지 여부를 알 수 없습니다.
우리는 두 가지 지표에 집중할 수 있습니다. 첫 번째는 CPU 사용량입니다. 우리가 다루고 있는 프로세스가 얼마나 빨리 또는 느리게 실행됩니까? 두 번째는 메모리 사용량입니다. 스크립트를 실행하는 데 얼마나 많은 메모리가 필요합니까? 이는 일반적으로 반비례합니다. 즉, CPU 사용량을 희생하여 메모리 사용량을 줄일 수 있으며 그 반대의 경우도 마찬가지입니다.
비동기 처리 모델(예: 다중 프로세스 또는 다중 스레드 PHP 애플리케이션)에서는 CPU와 메모리 사용량이 모두 중요한 고려 사항입니다. 전통적인 PHP 아키텍처에서는 일반적으로 서버 제약 조건에 도달할 때마다 이것이 문제가 됩니다.
PHP 내부에서 CPU 사용량을 측정하는 것은 어렵습니다. 이 부분에 정말로 관심이 있다면 Ubuntu 또는 macOS에서 top
的命令。对于Windows,则可用考虑使用Linux子系统,这样你就能够在Ubuntu中使用 top
와 같은 명령을 사용하는 것을 고려해 보세요.
이 튜토리얼에서는 메모리 사용량을 측정합니다. "전통적인" 스크립트가 얼마나 많은 메모리를 사용하는지 살펴보겠습니다. 또한 몇 가지 최적화 전략을 구현하고 이를 측정할 것입니다. 마지막으로 합리적인 선택을 하시길 바라겠습니다.
다음은 메모리 사용량을 확인하는 데 사용하는 방법입니다.
// formatBytes 方法取材于 php.net 文档 memory_get_peak_usage(); function formatBytes($bytes, $precision = 2) { $units = array("b", "kb", "mb", "gb", "tb"); $bytes = max($bytes, 0); $pow = floor(($bytes ? log($bytes) : 0) / log(1024)); $pow = min($pow, count($units) - 1); $bytes /= (1 << (10 * $pow)); return round($bytes, $precision) . " " . $units[$pow]; }
한 번에 어떤 스크립트가 가장 많은 메모리를 사용하고 있는지 이해할 수 있도록 스크립트 끝 부분에서 이러한 방법을 사용합니다.
파일을 효율적으로 읽을 수 있는 다양한 방법이 있습니다. 이는 다음 두 가지 시나리오에서 사용됩니다. 동시에 모든 데이터를 읽고 처리하고, 처리된 데이터를 출력하거나, 다른 작업을 수행하고 싶을 수도 있습니다. 데이터에 액세스하지 않고 데이터 스트림을 변환하고 싶을 수도 있습니다.
첫 번째 경우에 대해 파일을 읽고 처리를 위해 10,000행의 데이터를 별도의 대기열에 전달하려는 경우를 상상해 보세요. 최소 10,000행의 데이터를 메모리에 로드하고 이를 큐 관리자(사용되는 항목)에 전달해야 합니다.
두 번째 경우에는 특히 큰 API 응답의 내용을 압축하고 싶다고 가정해 보겠습니다. 여기에 내용이 무엇인지는 상관하지 않지만 압축 형식으로 백업되었는지 확인해야 합니다.
두 경우 모두 대용량 파일을 읽어야 합니다. 차이점은 첫 번째 경우에는 데이터가 무엇인지 알아야 하지만 두 번째 경우에는 데이터가 무엇인지 신경 쓰지 않는다는 것입니다. 다음으로 이 두 가지 접근 방식에 대해 심도있게 논의해 보겠습니다...
PHP에는 파일 처리를 위한 많은 기능이 있습니다. 그 중 일부를 결합하여 간단한 파일 리더를 구현해 보겠습니다
// from memory.php function formatBytes($bytes, $precision = 2) { $units = array("b", "kb", "mb", "gb", "tb"); $bytes = max($bytes, 0); $pow = floor(($bytes ? log($bytes) : 0) / log(1024)); $pow = min($pow, count($units) - 1); $bytes /= (1 << (10 * $pow)); return round($bytes, $precision) . " " . $units[$pow]; } print formatBytes(memory_get_peak_usage());
// from reading-files-line-by-line-1.php function readTheFile($path) { $lines = []; $handle = fopen($path, "r"); while(!feof($handle)) { $lines[] = trim(fgets($handle)); } fclose($handle); return $lines; } readTheFile("shakespeare.txt"); require "memory.php";
텍스트를 읽고 있습니다. 셰익스피어의 전 작품을 담고 있는 파일. 파일 크기는 약 5.5MB입니다. 메모리 사용량은 12.8MB로 최고치를 기록했습니다. 이제 생성기를 사용하여 각 줄을 읽어 보겠습니다.
// from reading-files-line-by-line-2.php function readTheFile($path) { $handle = fopen($path, "r"); while(!feof($handle)) { yield trim(fgets($handle)); } fclose($handle); } readTheFile("shakespeare.txt"); require "memory.php";
파일 크기는 동일하지만 메모리 사용량은 393KB로 최고입니다. 이 데이터는 파일 데이터 처리를 추가해야 하기 때문에 그다지 의미가 없습니다. 예를 들어 두 개의 빈 줄이 나타나면 문서를 여러 개의 덩어리로 분할합니다.
// from reading-files-line-by-line-3.php $iterator = readTheFile("shakespeare.txt"); $buffer = ""; foreach ($iterator as $iteration) { preg_match("/\n{3}/", $buffer, $matches); if (count($matches)) { print "."; $buffer = ""; } else { $buffer .= $iteration . PHP_EOL; } } require "memory.php";
이번에는 얼마나 많은 메모리가 사용되는지 추측하는 사람이 있나요? 텍스트 문서를 126개의 청크로 나누더라도 여전히 459KB의 메모리만 사용합니다. 생성기의 특성을 고려할 때 우리가 사용할 최대 메모리는 반복 중에 가장 큰 텍스트 블록을 저장하는 데 필요한 메모리입니다. 이 경우 가장 큰 블록은 101985자입니다.
저는 이미 제너레이터를 사용하여 성능 향상과 제너레이터 확장 팩에 대해 글을 쓴 적이 있습니다. 관심이 있으시면 더 많은 관련 콘텐츠를 확인하실 수 있습니다.
생성기에는 다른 용도도 있지만 분명히 대용량 파일을 읽는 데 적합합니다. 데이터를 처리해야 한다면 아마도 생성기가 가장 좋은 방법일 것입니다.
在不需要处理数据的情况下,我们可以将文件数据从一个文件传递到另一个文件。这通常称为管道 (大概是因为除了两端之外,我们看不到管道内的任何东西,当然,只要它是不透明的)。我们可以通过流(stream)来实现,首先,我们编写一个脚本实现一个文件到另一个文件的传输,以便我们可以测量内存使用情况:
// from piping-files-1.php file_put_contents( "piping-files-1.txt", file_get_contents("shakespeare.txt") ); require "memory.php";
结果并没有让人感到意外。该脚本比其复制的文本文件使用更多的内存来运行。这是因为脚本必须在内存中读取整个文件直到将其写入另外一个文件。对于小的文件而言,这种操作是 OK 的。但是将其用于大文件时,就不是那么回事了。
让我们尝试从一个文件流式传输(或管道传输)到另一个文件:
// from piping-files-2.php $handle1 = fopen("shakespeare.txt", "r"); $handle2 = fopen("piping-files-2.txt", "w"); stream_copy_to_stream($handle1, $handle2); fclose($handle1); fclose($handle2); require "memory.php";
这段代码有点奇怪。我们打开两个文件的句柄,第一个处于读取模式,第二个处于写入模式。然后,我们从第一个复制到第二个。我们通过再次关闭两个文件来完成。当你知道内存使用为 393 KB 时,可能会感到惊讶。
这个数字看起来很熟悉,这不就是利用生成器保存逐行读取内容时所使用的内存吗。这是因为 fgets
的第二个参数定义了每行要读取的字节数(默认为 -1
或到达新行之前的长度)。
stream_copy_to_stream
的第三个参数是相同的(默认值完全相同)。stream_copy_to_stream
一次从一个流读取一行,并将其写入另一流。由于我们不需要处理该值,因此它会跳过生成器产生值的部分
单单传输文字还不够实用,所以考虑下其他例子。假设我们想从 CDN 输出图像,可以用以下代码来描述
// from piping-files-3.php file_put_contents( "piping-files-3.jpeg", file_get_contents( "https://github.com/assertchris/uploads/raw/master/rick.jpg" ) ); // ...or write this straight to stdout, if we don't need the memory info require "memory.php";
想象一下应用程度执行到该步骤。这次我们不是要从本地文件系统中获取图像,而是从 CDN 获取。我们用 file_get_contents
代替更优雅的处理方式(例如Guzzle),它们的实际效果是一样的。
内存使用情况为 581KB,现在,我们如何尝试进行流传输呢?
// from piping-files-4.php $handle1 = fopen( "https://github.com/assertchris/uploads/raw/master/rick.jpg", "r" ); $handle2 = fopen( "piping-files-4.jpeg", "w" ); // ...or write this straight to stdout, if we don't need the memory info stream_copy_to_stream($handle1, $handle2); fclose($handle1); fclose($handle2); require "memory.php";
内存使用比刚才略少(400 KB),但是结果是相同的。如果我们不需要内存信息,也可以打印至标准输出。PHP 提供了一种简单的方法来执行此操作:
$handle1 = fopen( "https://github.com/assertchris/uploads/raw/master/rick.jpg", "r" ); $handle2 = fopen( "php://stdout", "w" ); stream_copy_to_stream($handle1, $handle2); fclose($handle1); fclose($handle2); // require "memory.php";
还存在一些流可以通过管道来读写。
php://stdin
只读php://stderr
只写,与 php://stdout
相似php://input
只读,使我们可以访问原始请求内容php://output
只写,可让我们写入输出缓冲区php://memory
与 php://temp
(可读写) 是临时存储数据的地方。区别在于数据足够大时 php:/// temp
就会将数据存储在文件系统中,而php:/// memory
将继续存储在内存中直到耗尽。我们可以对流使用另一个技巧,称为过滤器。它介于两者之间,对数据进行了适当的控制使其不暴露给外接。假设我们要压缩 shakespeare.txt
文件。我们可以使用 Zip 扩展
// from filters-1.php $zip = new ZipArchive(); $filename = "filters-1.zip"; $zip->open($filename, ZipArchive::CREATE); $zip->addFromString("shakespeare.txt", file_get_contents("shakespeare.txt")); $zip->close(); require "memory.php";
这段代码虽然整洁,但是总共使用了大概 10.75 MB 的内存。我们可以使用过滤器来进行优化
// from filters-2.php $handle1 = fopen( "php://filter/zlib.deflate/resource=shakespeare.txt", "r" ); $handle2 = fopen( "filters-2.deflated", "w" ); stream_copy_to_stream($handle1, $handle2); fclose($handle1); fclose($handle2); require "memory.php";
在这里,我们可以看到 php:///filter/zlib.deflate
过滤器,该过滤器读取和压缩资源的内容。然后我们可以将该压缩数据通过管道传输到另一个文件中。这仅使用了 896KB 内存。
虽然格式不同,或者说使用 zip 压缩文件有其他诸多好处。但是,你不得不考虑:如果选择其他格式你可以节省 12 倍的内存,你会不会心动?
要对数据进行解压,只需要通过另外一个 zlib 过滤器:
// from filters-2.php file_get_contents( "php://filter/zlib.inflate/resource=filters-2.deflated" );
关于流,在 Understanding Streams in PHP 和 Using PHP Streams Effectively 文章中已经进行了广泛的讨论,如果你想要换个角度思考,可以查看以上这两篇文章。
fopen
和 file_get_contents
具有它们自己的默认选项集,但是它们是完全可定制的。要定义它们,我们需要创建一个新的流上下文
// from creating-contexts-1.php $data = join("&", [ "twitter=assertchris", ]); $headers = join("\r\n", [ "Content-type: application/x-www-form-urlencoded", "Content-length: " . strlen($data), ]); $options = [ "http" => [ "method" => "POST", "header"=> $headers, "content" => $data, ], ]; $context = stream_content_create($options); $handle = fopen("https://example.com/register", "r", false, $context); $response = stream_get_contents($handle); fclose($handle);
本例中,我们尝试发送一个 POST 请求给 API。API 端点是安全的,不过我们仍然使用了 http 上下文属性(可用于 http 或者 https)。我们设置了一些头部,并打开了 API 的文件句柄。我们可以将句柄以只读方式打开,上下文负责编写。
自定义的内容很多,如果你想了解更多信息,可查看对应 文档。
在总结之前,我们先谈谈创建自定义协议。如果你查看 文档,可以找到一个示例类:
Protocol { public resource $context; public __construct ( void ) public __destruct ( void ) public bool dir_closedir ( void ) public bool dir_opendir ( string $path , int $options ) public string dir_readdir ( void ) public bool dir_rewinddir ( void ) public bool mkdir ( string $path , int $mode , int $options ) public bool rename ( string $path_from , string $path_to ) public bool rmdir ( string $path , int $options ) public resource stream_cast ( int $cast_as ) public void stream_close ( void ) public bool stream_eof ( void ) public bool stream_flush ( void ) public bool stream_lock ( int $operation ) public bool stream_metadata ( string $path , int $option , mixed $value ) public bool stream_open ( string $path , string $mode , int $options , string &$opened_path ) public string stream_read ( int $count ) public bool stream_seek ( int $offset , int $whence = SEEK_SET ) public bool stream_set_option ( int $option , int $arg1 , int $arg2 ) public array stream_stat ( void ) public int stream_tell ( void ) public bool stream_truncate ( int $new_size ) public int stream_write ( string $data ) public bool unlink ( string $path ) public array url_stat ( string $path , int $flags ) }
我们并不打算实现其中一个,因为我认为它值得拥有自己的教程。有很多工作要做。但是一旦完成工作,我们就可以很容易地注册流包装器:
if (in_array("highlight-names", stream_get_wrappers())) { stream_wrapper_unregister("highlight-names"); } stream_wrapper_register("highlight-names", "HighlightNamesProtocol"); $highlighted = file_get_contents("highlight-names://story.txt");
同样,也可以创建自定义流过滤器。 文档 有一个示例过滤器类:
Filter { public $filtername; public $params public int filter ( resource $in , resource $out , int &$consumed , bool $closing ) public void onClose ( void ) public bool onCreate ( void ) }
可被轻松注册
$handle = fopen("story.txt", "w+"); stream_filter_append($handle, "highlight-names", STREAM_FILTER_READ);
highlight-names
需要与新过滤器类的 filtername
属性匹配。还可以在 php:///filter/highligh-names/resource=story.txt
字符串中使用自定义过滤器。定义过滤器比定义协议要容易得多。原因之一是协议需要处理目录操作,而过滤器仅需要处理每个数据块。
如果您愿意,我强烈建议您尝试创建自定义协议和过滤器。如果您可以将过滤器应用于stream_copy_to_stream
操作,则即使处理令人讨厌的大文件,您的应用程序也将几乎不使用任何内存。想象一下编写调整大小图像
过滤器或加密应用程序
过滤器。
如果你愿意,我强烈建议你尝试创建自定义协议和过滤器。如果你可以将过滤器应用于 stream_copy_to_stream
操作,即使处理烦人的大文件,你的应用程序也几乎不使用任何内存。想象下编写 resize-image
过滤器和 encrypt-for-application
过滤器吧。
虽然这不是我们经常遇到的问题,但是在处理大文件时的确很容易搞砸。在异步应用中,如果我们不注意内存的使用情况,很容易导致服务器的崩溃。
本教程希望能带给你一些新的想法(或者更新你的对这方面的固有记忆),以便你能够更多的考虑如何有效地读取和写入大文件。当我们开始熟悉和使用流和生成器并停止使用诸如 file_get_contents
这样的函数时,这方面的错误将全部从应用程序中消失,这不失为一件好事。
英文原文地址:https://www.sitepoint.com/performant-reading-big-files-php/
译文地址:https://learnku.com/php/t/39751
推荐学习:《PHP视频教程》
위 내용은 PHP를 사용하여 대용량 파일을 읽는 방법에 대해 이야기해 보겠습니다(튜토리얼 공유).의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!