検索
ホームページバックエンド開発PHPチュートリアルPHP およびシェルの大きなファイル データの統計と並べ替え方法

このセクションの内容: シェルとphpを使ってビッグデータを並べ替える方法

ビッグデータの問題、たとえば、4G ファイルがある場合、1G メモリしか搭載していないマシンを使用して、ファイル内の最頻値を計算する方法 (1 行が配列であると仮定します。QQ 番号など)。 ファイルがわずか 4B または数十メガバイトの場合、最も簡単な方法は、ファイルを直接読み取り、分析と統計を実行することです。ただし、これは 4G ファイルです。当然、数十 G、場合によっては数百 G になる可能性があります。これは直接読み込むことで解決できません。

このような大きなファイルの場合と同様に、PHP だけを使用するのは決して現実的ではありません。ファイルがどんなに大きくても、まず複数のアプリケーションで使用できる小さなファイルに分割し、次に小さなファイルに分割する必要があるということです。ファイルはバッチまたは順番に分析およびカウントでき、合計結果が要約され、要件を満たす最終結果が得られます。人気のある MapReduce モデルと同様に、その中心的な考え方は「Map (マッピング)」と「Reduce (簡略化)」であり、それに加えて分散ファイル処理は、もちろん、処理に使用できるのは Reduce だけです。

10 億行のファイルがあり、各行に 6 桁から 10 桁の QQ 番号があるとします。解決する必要があるのは、次の PHP を使用して、これらの 10 億 QQ 番号の中で最も頻繁に繰り返される上位 10 個の番号を計算することです。スクリプトはこのファイルを生成します。この乱数には重複はない可能性がありますが、重複する数字が存在すると想定されます。

例えば、

  1. $fp = fopen('qq.txt','w+');
  2. for( $i=0; $i $str = mt_rand( 10000,9999999999)."n";
  3. fwrite($fp,$str);
  4. }
  5. fclose($fp);
コードをコピー

ファイル生成の世界は比較的長いです php-client を直接使用します。 Linux では PHP ファイルを実行すると時間を節約できます。もちろん、他の方法を使用してファイルを生成することもできます。生成されるファイルは約11Gです。 次に、Linux Split を使用してファイルを切り取ります。切り取りの標準は、データ 100 万行ごとに 1 ファイルです。 split -l 1000000 -a 3 qq.txt qqfile qq.txt は qqfileaaa から qqfilebml という名前の 1000 個のファイルに分割されており、各ファイルのサイズは 11MB です。現時点ではどのような処理方法を使用しても比較的簡単です。

分析と統計には PHP を使用します。

  1. $results = array();
  2. foreach( glob('/tmp/qq/*') as $file ){
  3. $fp = fopen($file,'r') ;
  4. $arr = array();
  5. while( $qq = fgets($fp) ){
  6. $qq = トリム($qq);
  7. isset($arr[$qq]) $arr[$qq]+ ? + : $arr[$qq]=1;
  8. }
  9. arsort($arr);
  10. //以下の処理方法に問題があります
  11. do{
  12. $i=0;
  13. foreach( $arr as $qq= >$times ){
  14. if( $i > 10 ){
  15. isset($results[$qq]) $results[$qq]+=$times :$results[$qq]=$times;
  16. $ i++;
  17. } else {
  18. Break;
  19. }
  20. }
  21. } while(false);
  22. fclose($fp);
  23. }
  24. if( $results ){
  25. arsort($results);
  26. do{
  27. $i= 0;
  28. foreach ( $results as $qq=>$times ){
  29. if( $i > 10 ){
  30. echo $qq . $times "n" ;
  31. $i++;
  32. } {
  33. Break;
  34. }
  35. }
  36. } while(false);
  37. }
各サンプルの上位 10 個が取得され、最終的に分析と統計のためにまとめられるように、コードをコピーします

各サンプルには 11 位にランクされる数値が存在するが、合計の数値は間違いなく上位 1​​0 位にあるため、後続の統計計算アルゴリズムを改善する必要があると除外されました。 Linux の awk や sort コマンドを使えばソートできるという人もいるかもしれないが、試してみたところ、小さいファイルならなんとかなるが、11G のファイルとなるとメモリも時間も耐えられない。

1 awk+sort スクリプト: awk -F '\@' '{name[$1]++ } END {for (名前の数) print name[count],count}' qq.txt |sort -n > 123.txt 大きなファイルの処理であれ、ビッグデータの可能性であれ、大きな需要があります。



声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
アクション中のPHP:実際の例とアプリケーションアクション中のPHP:実際の例とアプリケーションApr 14, 2025 am 12:19 AM

PHPは、電子商取引、コンテンツ管理システム、API開発で広く使用されています。 1)eコマース:ショッピングカート機能と支払い処理に使用。 2)コンテンツ管理システム:動的コンテンツの生成とユーザー管理に使用されます。 3)API開発:RESTFUL API開発とAPIセキュリティに使用されます。パフォーマンスの最適化とベストプラクティスを通じて、PHPアプリケーションの効率と保守性が向上します。

PHP:インタラクティブなWebコンテンツを簡単に作成しますPHP:インタラクティブなWebコンテンツを簡単に作成しますApr 14, 2025 am 12:15 AM

PHPにより、インタラクティブなWebコンテンツを簡単に作成できます。 1)HTMLを埋め込んでコンテンツを動的に生成し、ユーザー入力またはデータベースデータに基づいてリアルタイムで表示します。 2)プロセスフォームの提出と動的出力を生成して、XSSを防ぐためにHTMLSPECIALCHARSを使用していることを確認します。 3)MySQLを使用してユーザー登録システムを作成し、Password_HashおよびPreprocessingステートメントを使用してセキュリティを強化します。これらの手法を習得すると、Web開発の効率が向上します。

PHPとPython:2つの一般的なプログラミング言語を比較しますPHPとPython:2つの一般的なプログラミング言語を比較しますApr 14, 2025 am 12:13 AM

PHPとPythonにはそれぞれ独自の利点があり、プロジェクトの要件に従って選択します。 1.PHPは、特にWebサイトの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンス、機械学習、人工知能に適しており、簡潔な構文を備えており、初心者に適しています。

PHPの永続的な関連性:それはまだ生きていますか?PHPの永続的な関連性:それはまだ生きていますか?Apr 14, 2025 am 12:12 AM

PHPは依然として動的であり、現代のプログラミングの分野で重要な位置を占めています。 1)PHPのシンプルさと強力なコミュニティサポートにより、Web開発で広く使用されています。 2)その柔軟性と安定性により、Webフォーム、データベース操作、ファイル処理の処理において顕著になります。 3)PHPは、初心者や経験豊富な開発者に適した、常に進化し、最適化しています。

PHPの現在のステータス:Web開発動向を見てくださいPHPの現在のステータス:Web開発動向を見てくださいApr 13, 2025 am 12:20 AM

PHPは、現代のWeb開発、特にコンテンツ管理とeコマースプラットフォームで依然として重要です。 1)PHPには、LaravelやSymfonyなどの豊富なエコシステムと強力なフレームワークサポートがあります。 2)パフォーマンスの最適化は、Opcacheとnginxを通じて達成できます。 3)PHP8.0は、パフォーマンスを改善するためにJITコンパイラを導入します。 4)クラウドネイティブアプリケーションは、DockerおよびKubernetesを介して展開され、柔軟性とスケーラビリティを向上させます。

PHP対その他の言語:比較PHP対その他の言語:比較Apr 13, 2025 am 12:19 AM

PHPは、特に迅速な開発や動的なコンテンツの処理に適していますが、データサイエンスとエンタープライズレベルのアプリケーションには良くありません。 Pythonと比較して、PHPはWeb開発においてより多くの利点がありますが、データサイエンスの分野ではPythonほど良くありません。 Javaと比較して、PHPはエンタープライズレベルのアプリケーションでより悪化しますが、Web開発により柔軟性があります。 JavaScriptと比較して、PHPはバックエンド開発により簡潔ですが、フロントエンド開発のJavaScriptほど良くありません。

PHP対Python:コア機能と機能PHP対Python:コア機能と機能Apr 13, 2025 am 12:16 AM

PHPとPythonにはそれぞれ独自の利点があり、さまざまなシナリオに適しています。 1.PHPはWeb開発に適しており、組み込みのWebサーバーとRich Functionライブラリを提供します。 2。Pythonは、簡潔な構文と強力な標準ライブラリを備えたデータサイエンスと機械学習に適しています。選択するときは、プロジェクトの要件に基づいて決定する必要があります。

PHP:Web開発の重要な言語PHP:Web開発の重要な言語Apr 13, 2025 am 12:08 AM

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting()やvar_dump()などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境