golang がビッグデータを処理する方法-Golang-php.cn

ホームページ

バックエンド開発

Golang

golang がビッグデータを処理する方法

(*-*)浩

Dec 27, 2019 am 11:09 AM

golang

golang がビッグデータを処理する方法

Golang は同時プログラミングに非常に適していることが証明されており、Goroutine は非同期プログラミングよりも読みやすく、エレガントで効率的です。この記事では、大量のデータのバッチ処理(ETL)に適した、Golangによる実装に適したパイプライン実行モデルを提案します。

次のようなアプリケーションシナリオを想像しました。 (推奨学習: Go )

## データベース A (Cassandra) からユーザーレビューをロードします (大量の、たとえば、たとえば 10 億）、各コメントのユーザー ID に基づいてデータベース B (MySQL) からユーザー情報を関連付け、NLP サービス (自然言語処理) を呼び出して各コメントを処理し、処理結果をデータベース C (ElasticSearch) に書き込みます。

アプリケーションではさまざまな問題が発生するため、これらの要件を要約します。

要件 1: データはバッチで処理する必要があります。たとえば、バッチごとに 100 項目を指定します。問題 (データベース障害など) が発生すると中断され、次回プログラムを開始するときに中断から再開するためにチェックポイントが使用されます。
要件 2: データベースと NLP サービスに適切な負荷がかかるように、プロセスごとに適切な同時実行数を設定します (他のビジネスに影響を与えず、ETL パフォーマンスを向上させるためにできるだけ多くのリソースを占有します)。たとえば、手順 (1) ～ (4) では、同時実行数をそれぞれ 1、4、8、および 2 に設定します。

これは典型的なパイプライン実行モデルです。データの各バッチ (たとえば、100 個のアイテム) を、組立ライン上の製品と考えてください。4 つのステップは、組立ライン上の 4 つの処理手順に対応しています。各工程が完了すると、半製品が工場に引き渡されます。次の工程。各工程で同時に処理できる製品数は異なります。

まず、1 4 8 2 ゴルーチンを有効にし、チャネルを使用してデータを転送することを考えるかもしれません。私は以前にこれを行ったことがありますが、結論としては、これを行うとプログラマがおかしくなるということです。プロセスの同時実行制御コードは非常に複雑で、特に例外、予想を超える実行時間、制御可能な中断などを処理する必要がある場合には、次のことを行う必要があります。用途さえ覚えられなくなるまで、たくさんのチャンネルを追加してください。

再利用可能なパイプラインモジュール

ETL 作業をより効率的に完了するために、パイプラインをモジュールに抽象化しました。まずコードを貼り付けてから、意味を分析します。このモジュールは直接使用でき、主に使用されるインターフェイスは NewPipeline、Async、Wait です。

このパイプラインコンポーネントを使用すると、ETL プログラムはシンプル、効率的、信頼性の高いものになり、プログラマは面倒な同時プロセス制御から解放されます:

package main
 
import "log"
 
func main() {
    //恢复上次执行的checkpoint，如果是第一次执行就获取一个初始值。
    checkpoint := loadCheckpoint()
    
    //工序(1)在pipeline外执行，最后一个工序是保存checkpoint
    pipeline := NewPipeline(4, 8, 2, 1) 
    for {
        //(1)
        //加载100条数据，并修改变量checkpoint
        //data是数组，每个元素是一条评论，之后的联表、NLP都直接修改data里的每条记录。
        data, err := extractReviewsFromA(&checkpoint, 100) 
        if err != nil {
            log.Print(err)
            break
        }
        
        //这里有个Golang著名的坑。
        //“checkpoint”是循环体外的变量，它在内存中只有一个实例并在循环中不断被修改，所以不能在异步中使用它。
        //这里创建一个副本curCheckpoint，储存本次循环的checkpoint。
        curCheckpoint := checkpoint
        
        ok := pipeline.Async(func() error {
            //(2)
            return joinUserFromB(data)
        }, func() error {
            //(3)
            return nlp(data)
        }, func() error {
            //(4)
            return loadDataToC(data)
        }, func() error {
            //(5)保存checkpoint
            log.Print("done:", curCheckpoint)
            return saveCheckpoint(curCheckpoint)
        })
        if !ok { break }
        
        if len(data) < 100 { break } //处理完毕
    }
    err := pipeline.Wait()
    if err != nil { log.Print(err) }
}

以上がgolang がビッグデータを処理する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Golang in Action：実際の例とアプリケーションApr 12, 2025 am 12:11 AM

Golangは実際のアプリケーションに優れており、そのシンプルさ、効率性、並行性で知られています。 1）同時プログラミングはゴルチンとチャネルを通じて実装されます。2）柔軟なコードは、インターフェイスと多型を使用して記述されます。3）ネット/HTTPパッケージを使用したネットワークプログラミングを簡素化、4）効率的な同時クローラーを構築する、5）ツールと最高の実践を通じてデバッグと最適化。

Golang：Goプログラミング言語が説明しましたApr 10, 2025 am 11:18 AM

GOのコア機能には、ガベージコレクション、静的リンク、並行性サポートが含まれます。 1. GO言語の並行性モデルは、GoroutineとChannelを通じて効率的な同時プログラミングを実現します。 2.インターフェイスと多型は、インターフェイスメソッドを介して実装されているため、異なるタイプを統一された方法で処理できます。 3.基本的な使用法は、関数定義と呼び出しの効率を示しています。 4。高度な使用法では、スライスは動的なサイズ変更の強力な機能を提供します。 5.人種条件などの一般的なエラーは、Getest Raceを通じて検出および解決できます。 6.パフォーマンス最適化Sync.Poolを通じてオブジェクトを再利用して、ゴミ収集圧力を軽減します。

Golangの目的：効率的でスケーラブルなシステムの構築Apr 09, 2025 pm 05:17 PM

GO言語は、効率的でスケーラブルなシステムの構築においてうまく機能します。その利点には次のものがあります。1。高性能：マシンコードにコンパイルされ、速度速度が速い。 2。同時プログラミング：ゴルチンとチャネルを介してマルチタスクを簡素化します。 3。シンプルさ：簡潔な構文、学習コストとメンテナンスコストの削減。 4。クロスプラットフォーム：クロスプラットフォームのコンパイル、簡単な展開をサポートします。

SQLソートのステートメントによる順序の結果がランダムに見えるのはなぜですか？Apr 02, 2025 pm 05:24 PM

SQLクエリの結果の並べ替えについて混乱しています。 SQLを学習する過程で、しばしば混乱する問題に遭遇します。最近、著者は「Mick-SQL Basics」を読んでいます...

テクノロジースタックの収束は、テクノロジースタック選択のプロセスにすぎませんか？Apr 02, 2025 pm 05:21 PM

テクノロジースタックの収束とテクノロジーの選択の関係ソフトウェア開発におけるテクノロジーの選択、テクノロジースタックの選択と管理は非常に重要な問題です。最近、一部の読者が提案しています...

Golang Mutexの不適切な使用は「致命的なエラー：同期：ロック解除されたMutexのロックを解除する」エラーを引き起こしますか？この問題を避ける方法は？Apr 02, 2025 pm 05:18 PM

ゴーラン...

反射比較を使用し、GOの3つの構造の違いを処理する方法は？Apr 02, 2025 pm 05:15 PM

GO言語で3つの構造を比較および処理する方法。 GOプログラミングでは、2つの構造の違いを比較し、これらの違いを...

Goでグローバルにインストールされたパッケージを表示する方法は？Apr 02, 2025 pm 05:12 PM

Goでグローバルにインストールされたパッケージを表示する方法は？ GO言語で開発する過程で、GOはしばしば使用します...

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、