操作 3000 万个字符串:避免内存分配错误
在以下情况下,使用curl 从供应商检索 CSV 数据源会带来挑战处理如此大的文件大小。由于大小巨大(大约 3050 万个字符),通过分隔符(例如 r 和 n)分解内容的常见方法会导致“内存不足”错误。本文探讨了解决此问题的替代解决方案。
虽然将整个文件存储在内存中是不可行的,但一种选择是使用 CURLOPT_FILE 将内容重定向到磁盘上的文件中。但是,这种方法可能与所需的工作流程不一致,因为它涉及创建物理文件。
另一种解决方案是定义自定义流包装器,注册它,并使用它来代替带有 CURLOPT_FILE 的真实文件。此流包装器可以设计为在数据到达时分块处理数据,从而有效地避免内存分配问题。
为了说明这种方法,让我们创建一个扩展streamWrapper 类的MyStream 类。在stream_write方法中,我们可以利用explode函数从传入的数据块中提取行。由于数据通常以较小的块(例如 8192 字节)接收,因此我们可以对这些较小的部分进行操作,而不是尝试一次操作整个文件。
通过使用独特的协议注册此自定义流包装器(例如,“test”)并在带有 CURLOPT_FILE 的curl 配置中使用它,我们可以利用stream_write 方法在收到数据时增量地处理数据。这种技术可以有效地操作大字符串,而不会引起内存分配错误。
以上是如何在不耗尽内存的情况下操作 3000 万个字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!