3,000 万文字を含む大きな CSV ファイルを効率的に処理するにはどうすればよいですか?-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

3,000 万文字を含む大きな CSV ファイルを効率的に処理するにはどうすればよいですか?

DDD

Nov 10, 2024 pm 08:35 PM

How to Efficiently Process Large CSV Files with 30 Million Characters?

大きな CSV ファイルの効率的な操作: 3,000 万文字の文字列の処理

大きな CSV を操作すると「メモリ不足」エラーが発生するCurl 経由でダウンロードされたファイル。このファイルには約 3,050 万文字が含まれており、「r」と「n」を使用して行の配列に分割しようとすると、過剰なメモリ消費が原因で失敗します。割り当てエラーを回避するには、別のアプローチを検討してください:

ファイル書き込みなしのデータのストリーミング:

CURLOPT_FILE オプションを使用して、データを書き込む代わりにカスタムストリームラッパーに直接ストリーミングします。ファイル。独自のストリームラッパークラスを定義すると、過剰なメモリを割り当てずに、到着したデータのチャンクを処理できます。

ストリームラッパークラスの例:

class MyStream {
    protected $buffer;

    function stream_open($path, $mode, $options, &$opened_path) {
        return true;
    }

    public function stream_write($data) {
        // Extract and process lines
        $lines = explode("\n", $data);
        $this->buffer = $lines[count($lines) - 1];
        unset($lines[count($lines) - 1]);

        // Perform operations on the lines
        var_dump($lines);
        echo '<hr>';

        return strlen($data);
    }
}

ストリームラッパーの登録:

stream_wrapper_register("test", "MyStream") or die("Failed to register protocol");

ストリームによる設定カールラッパー:

$fp = fopen("test://MyTestVariableInMemory", "r+"); // Pseudo-file written to by curl

curl_setopt($ch, CURLOPT_FILE, $fp); // Directs output to the stream

このアプローチにより、データのチャンクを段階的に処理できるため、メモリ割り当てが回避され、大きな文字列の操作が可能になります。

その他の考慮事項:

実装を徹底的にテストして、長い行やその他のエッジを処理できることを確認します
データベースの挿入を実行するには、追加のコードが必要になる場合があります。
このソリューションは開始点として機能します。カスタマイズと最適化が必要な場合があります。

以上が3,000 万文字を含む大きな CSV ファイルを効率的に処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHP依存性噴射コンテナ：クイックスタートMay 13, 2025 am 12:11 AM

aphpDependencyInjectionContaineriSATOULTAINATINAGECLASSDEPTINCIES、強化測定性、テスト可能性、および維持可能性。

PHPの依存噴射対サービスロケーターMay 13, 2025 am 12:10 AM

SELECT DEPENTENCINGINOFCENT（DI）大規模なアプリケーションの場合、ServicElocatorは小さなプロジェクトまたはプロトタイプに適しています。 1）DIは、コンストラクターインジェクションを通じてコードのテスト可能性とモジュール性を改善します。 2）ServiceLocatorは、センター登録を通じてサービスを取得します。これは便利ですが、コードカップリングの増加につながる可能性があります。

PHPパフォーマンス最適化戦略。May 13, 2025 am 12:06 AM

phpapplicationscanbeoptimizedforspeedandEfficiencyby：1）enabingopcacheinphp.ini、2）PreparedStatementswithpordatabasequeriesを使用して、3）LoopswithArray_filterandarray_mapfordataprocessing、4）の構成ngincasaSearverseproxy、5）

PHPメールの検証：電子メールが正しく送信されるようにしますMay 13, 2025 am 12:06 AM

PHPemailvalidationinvolvesthreesteps:1)Formatvalidationusingregularexpressionstochecktheemailformat;2)DNSvalidationtoensurethedomainhasavalidMXrecord;3)SMTPvalidation,themostthoroughmethod,whichchecksifthemailboxexistsbyconnectingtotheSMTPserver.Impl

PHPアプリケーションをより速くする方法May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster、followthesesteps：1）useopcodecachinglikeopcacheTostoredscriptbytecode.2）最小化abasequeriesecachingingindexing.3）leveragephp7機能forbettercodeefficiency.4）

PHP Performance Optimization Checklist：今すぐ速度を改善してくださいMay 12, 2025 am 12:07 AM

PoldeSeptepsに続きます

PHP依存性インジェクション：コードのテスト可能性を改善しますMay 12, 2025 am 12:03 AM

依存性注入（DI）は、明示的に推移的な依存関係によりPHPコードのテスト可能性を大幅に改善します。 1）DI分離クラスと特定の実装により、テストとメンテナンスが柔軟になります。 2）3つのタイプのうち、コンストラクターは、状態を一貫性に保つために明示的な式依存性を注入します。 3）DIコンテナを使用して複雑な依存関係を管理し、コードの品質と開発効率を向上させます。

PHPパフォーマンスの最適化：データベースクエリの最適化May 12, 2025 am 12:02 AM

DatabaseQueryoptimizationInpholvesseveralstrategESTOEnhancePerformance.1）selectonlynlynlyndorycolumnStoredatedataTransfer.2）useindexingtospeedupdataretrieval.3）revenmecrycachingtostoreres sultsoffrequent queries.4）

See all articles