golang 如何處理大數據-Golang-PHP中文網

首頁

後端開發

Golang

golang 如何處理大數據

(*-*)浩

Dec 27, 2019 am 11:09 AM

golang

golang 如何處理大數據

Golang被證明非常適合併發編程，goroutine比非同步編程更易讀、優雅、高效。本文提出一個適合由Golang實現的Pipeline執行模型，適合大量處理大量資料（ETL）的情境。

想像這樣的應用情境： （建議學習：go）

#從資料庫A（Cassandra）載入使用者評論中（數量龐大，例如10億條）；根據每個評論的使用者ID、從資料庫B（MySQL）關聯使用者資料；呼叫NLP服務（自然語言處理），處理每個評論；將處理結果寫入資料庫C（ElasticSearch）。

由於應用程式遇到的各種問題，歸納出這些需求：
需求一：應分批處理數據，例如規定每批100條。出現問題時（例如任一資料庫故障）則中斷，下次程式啟動時使用checkpoint從中斷處復原。
需求二：每個流程設定合理的並發數、讓資料庫和NLP服務有合理的負載（不影響其它業務的基礎上，盡可能佔用更多資源以提高ETL效能）。例如，步驟（1）-（4）分別設定並發數1、4、8、2。

這就是一個典型的Pipeline（管線）執行模型。把每一批資料（例如100條）看作管線上的產品，4個步驟對應管線上4個處理工序，每個工序處理完畢後就把半成品交給下一個工序。每個工序可以同時處理的產品數各不相同。

你可能會先想到啟用1 4 8 2個goroutine，使用channel來傳遞資料。我也曾經這麼幹，結論就是這麼幹會讓程式設計師瘋掉：流程並發控製程式碼非常複雜，特別是你得處理異常、執行時間超出預期、可控中斷等問題，你不得不加入一堆channel，直到你自己都不記得有什麼用。

可重用的Pipeline模組

#為了更有效率完成ETL工作，我將Pipeline抽象化成模組。我先把程式碼貼出來，再解析意義。模組可以直接使用，主要使用的介面是：NewPipeline、Async、Wait。

使用這個Pipeline元件，我們的ETL程式將會簡單、有效率、可靠，讓程式設計師從繁瑣的並發流程控制中解放出來：

package main
 
import "log"
 
func main() {
    //恢复上次执行的checkpoint，如果是第一次执行就获取一个初始值。
    checkpoint := loadCheckpoint()
    
    //工序(1)在pipeline外执行，最后一个工序是保存checkpoint
    pipeline := NewPipeline(4, 8, 2, 1) 
    for {
        //(1)
        //加载100条数据，并修改变量checkpoint
        //data是数组，每个元素是一条评论，之后的联表、NLP都直接修改data里的每条记录。
        data, err := extractReviewsFromA(&checkpoint, 100) 
        if err != nil {
            log.Print(err)
            break
        }
        
        //这里有个Golang著名的坑。
        //“checkpoint”是循环体外的变量，它在内存中只有一个实例并在循环中不断被修改，所以不能在异步中使用它。
        //这里创建一个副本curCheckpoint，储存本次循环的checkpoint。
        curCheckpoint := checkpoint
        
        ok := pipeline.Async(func() error {
            //(2)
            return joinUserFromB(data)
        }, func() error {
            //(3)
            return nlp(data)
        }, func() error {
            //(4)
            return loadDataToC(data)
        }, func() error {
            //(5)保存checkpoint
            log.Print("done:", curCheckpoint)
            return saveCheckpoint(curCheckpoint)
        })
        if !ok { break }
        
        if len(data) < 100 { break } //处理完毕
    }
    err := pipeline.Wait()
    if err != nil { log.Print(err) }
}

以上是golang 如何處理大數據的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Golang和Python：了解差異Apr 18, 2025 am 12:21 AM

Golang和Python的主要區別在於並發模型、類型系統、性能和執行速度。 1.Golang使用CSP模型，適用於高並發任務；Python依賴多線程和GIL，適合I/O密集型任務。 2.Golang是靜態類型，Python是動態類型。 3.Golang編譯型語言執行速度快，Python解釋型語言開發速度快。

Golang vs.C：評估速度差Apr 18, 2025 am 12:20 AM

Golang通常比C 慢，但Golang在並發編程和開發效率上更具優勢：1)Golang的垃圾回收和並發模型使其在高並發場景下表現出色；2)C 通過手動內存管理和硬件優化獲得更高性能，但開發複雜度較高。

Golang：雲計算和DevOps的關鍵語言Apr 18, 2025 am 12:18 AM

Golang在雲計算和DevOps中的應用廣泛，其優勢在於簡單性、高效性和並發編程能力。 1)在雲計算中，Golang通過goroutine和channel機制高效處理並發請求。 2)在DevOps中，Golang的快速編譯和跨平台特性使其成為自動化工具的首選。

Golang和C：了解執行效率Apr 18, 2025 am 12:16 AM

Golang和C 在執行效率上的表現各有優勢。 1）Golang通過goroutine和垃圾回收提高效率，但可能引入暫停時間。 2）C 通過手動內存管理和優化實現高性能，但開發者需處理內存洩漏等問題。選擇時需考慮項目需求和團隊技術棧。

Golang vs. Python：並發和多線程Apr 17, 2025 am 12:20 AM

Golang更適合高並發任務，而Python在靈活性上更有優勢。 1.Golang通過goroutine和channel高效處理並發。 2.Python依賴threading和asyncio，受GIL影響，但提供多種並發方式。選擇應基於具體需求。

Golang和C：性能的權衡Apr 17, 2025 am 12:18 AM

Golang和C 在性能上的差異主要體現在內存管理、編譯優化和運行時效率等方面。 1)Golang的垃圾回收機制方便但可能影響性能，2)C 的手動內存管理和編譯器優化在遞歸計算中表現更為高效。

Golang vs. Python：申請和用例Apr 17, 2025 am 12:17 AM

selectgolangforhighpperformanceandcorrency，ifealforBackendServicesSandNetwork程序; selectpypypythonforrapiddevelopment，dataScience和machinelearningDuetoitsverserverserverserversator versator anderticality andextility andextentensivelibraries。