golang이 빅데이터를 처리하는 방법-Golang-php.cn

집

백엔드 개발

Golang

golang이 빅데이터를 처리하는 방법

(*-*)浩

Dec 27, 2019 am 11:09 AM

golang

golang이 빅데이터를 처리하는 방법

Golang은 동시 프로그래밍에 매우 적합한 것으로 입증되었습니다. 고루틴은 비동기 프로그래밍보다 읽기 쉽고 우아하며 효율적입니다. 본 논문에서는 대용량 데이터(ETL)의 일괄 처리에 적합한 Golang 구현에 적합한 파이프라인 실행 모델을 제안합니다.

다음과 같은 적용 시나리오를 상상해 보세요. > 🎜#이 응용 프로그램 시나리오를 상상해보십시오. 사용자 댓글 로드(예: 1 10억) 각 댓글의 사용자 ID에 따라 데이터베이스 B(MySQL)의 사용자 정보를 연결하고 NLP 서비스(자연어 처리)를 호출하여 각 댓글을 처리하고 데이터베이스 C(ElasticSearch)를 작성합니다.

애플리케이션에서 발생하는 다양한 문제로 인해 다음 요구 사항을 요약합니다.

요구 사항 1: 데이터를 일괄 처리해야 합니다(예: 일괄 처리당 100개 항목). 문제가 발생하면(예: 데이터베이스 오류) 중단되고 다음에 프로그램이 시작될 때 중단에서 다시 시작하기 위해 체크포인트가 사용됩니다.

요구사항 2: 데이터베이스 및 NLP 서비스가 합리적인 로드를 갖도록 각 프로세스에 대해 합리적인 수의 동시성을 설정합니다(다른 비즈니스에 영향을 주지 않고 가능한 한 많은 리소스를 점유하여 ETL 성능 향상). 예를 들어 (1)-(4)단계에서는 동시성 수를 각각 1, 4, 8, 2로 설정합니다.

이것은 일반적인 파이프라인 실행 모델입니다. 각 데이터 배치(예: 100개 품목)를 조립 라인의 제품으로 생각하십시오. 4단계는 조립 라인의 4가지 처리 절차에 해당합니다. 각 프로세스가 완료된 후 반제품이 고객에게 전달됩니다. 다음 과정. 각 공정에서 동시에 처리할 수 있는 제품의 수는 다릅니다.

먼저 1+4+8+2 고루틴을 활성화하고 채널을 사용하여 데이터를 전송하는 것을 생각할 수 있습니다. 나는 이전에 이 작업을 수행한 적이 있으며, 결론은 이렇게 하면 프로그래머를 미치게 만들 것이라는 것입니다. 프로세스 동시성 제어 코드는 매우 복잡합니다. 특히 예외, 예상을 초과하는 실행 시간, 제어 가능한 중단 등을 처리해야 하는 경우에는 더욱 그렇습니다. 용도를 기억하지 못할 때까지 여러 채널을 추가하세요.

재사용 가능한 파이프라인 모듈

ETL 작업을 보다 효율적으로 완료하기 위해 파이프라인을 모듈로 추상화했습니다. . 먼저 코드를 붙여넣은 후 의미를 분석해 보겠습니다. 모듈을 직접 사용할 수 있으며 사용되는 주요 인터페이스는 NewPipeline, Async 및 Wait입니다.

이 파이프라인 구성 요소를 사용하면 ETL 프로그램이 간단하고 효율적이며 안정적이므로 프로그래머가 번거로운 동시 프로세스 제어에서 벗어날 수 있습니다.

package main
 
import "log"
 
func main() {
    //恢复上次执行的checkpoint，如果是第一次执行就获取一个初始值。
    checkpoint := loadCheckpoint()
    
    //工序(1)在pipeline外执行，最后一个工序是保存checkpoint
    pipeline := NewPipeline(4, 8, 2, 1) 
    for {
        //(1)
        //加载100条数据，并修改变量checkpoint
        //data是数组，每个元素是一条评论，之后的联表、NLP都直接修改data里的每条记录。
        data, err := extractReviewsFromA(&checkpoint, 100) 
        if err != nil {
            log.Print(err)
            break
        }
        
        //这里有个Golang著名的坑。
        //“checkpoint”是循环体外的变量，它在内存中只有一个实例并在循环中不断被修改，所以不能在异步中使用它。
        //这里创建一个副本curCheckpoint，储存本次循环的checkpoint。
        curCheckpoint := checkpoint
        
        ok := pipeline.Async(func() error {
            //(2)
            return joinUserFromB(data)
        }, func() error {
            //(3)
            return nlp(data)
        }, func() error {
            //(4)
            return loadDataToC(data)
        }, func() error {
            //(5)保存checkpoint
            log.Print("done:", curCheckpoint)
            return saveCheckpoint(curCheckpoint)
        })
        if !ok { break }
        
        if len(data) < 100 { break } //处理完毕
    }
    err := pipeline.Wait()
    if err != nil { log.Print(err) }
}

위 내용은 golang이 빅데이터를 처리하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Golang과 Python 사이의 선택 : 프로젝트에 적합한 올바른Apr 19, 2025 am 12:21 AM

golangisidealferperperferferferferformance-criticalapplications 및 concurrentprogramming, whilepythonexcelsindatascience, 빠른 프로토 타입, 및 범위

골랑 : 동시성과 행동의 성능Apr 19, 2025 am 12:20 AM

Golang은 Goroutine 및 Channel을 통해 효율적인 동시성을 달성합니다. 1. Goroutine은 가벼운 스레드이며 GO 키워드로 시작합니다. 2. 채널은 경주 조건을 피하기 위해 고루틴 간의 안전한 통신에 사용됩니다. 3. 사용 예제는 기본 및 고급 사용법을 보여줍니다. 4. 일반적인 오류에는 교착 상태와 데이터 경쟁이 포함되며 Gorun-Race가 감지 할 수 있습니다. 5. 성능 최적화는 채널 사용을 줄이고, 고 루틴 수를 합리적으로 설정하고, sync.pool을 사용하여 메모리를 관리하는 것을 제안합니다.

Golang vs. Python : 어떤 언어를 배워야합니까?Apr 19, 2025 am 12:20 AM

Golang은 시스템 프로그래밍 및 높은 동시성 응용 프로그램에 더 적합한 반면 Python은 데이터 과학 및 빠른 개발에 더 적합합니다. 1) Golang은 Google에 의해 개발되어 정적으로 입력하여 단순성과 효율성을 강조하며 동시성 시나리오에 적합합니다. 2) Python은 Guidovan Rossum, 동적으로 입력, 간결한 구문, 광범위한 응용 프로그램, 초보자 및 데이터 처리에 적합합니다.

Golang vs. Python : 성능 및 확장 성Apr 19, 2025 am 12:18 AM

Golang은 성능과 확장 성 측면에서 Python보다 낫습니다. 1) Golang의 컴파일 유형 특성과 효율적인 동시성 모델은 높은 동시성 시나리오에서 잘 수행합니다. 2) 해석 된 언어로서 파이썬은 천천히 실행되지만 Cython과 같은 도구를 통해 성능을 최적화 할 수 있습니다.

Golang 대 기타 언어 : 비교Apr 19, 2025 am 12:11 AM

Go Language는 동시 프로그래밍, 성능, 학습 곡선 등의 고유 한 장점을 가지고 있습니다. 1. 동시 프로그래밍은 가볍고 효율적인 Goroutine 및 채널을 통해 실현됩니다. 2. 컴파일 속도는 빠르며 작동 속도는 작동 성능이 C 언어의 성능에 가깝습니다. 3. 문법은 간결하고 학습 곡선은 매끄럽고 생태계는 풍부합니다.

Golang과 Python : 차이점을 이해합니다Apr 18, 2025 am 12:21 AM

Golang과 Python의 주요 차이점은 동시성 모델, 유형 시스템, 성능 및 실행 속도입니다. 1. Golang은 동시 작업에 적합한 CSP 모델을 사용합니다. Python은 I/O 집약적 인 작업에 적합한 멀티 스레딩 및 Gil에 의존합니다. 2. Golang은 정적 유형이며 Python은 동적 유형입니다. 3. Golang 컴파일 된 언어 실행 속도는 빠르며 파이썬 해석 언어 개발은 빠릅니다.

Golang vs. C : 속도 차이 평가Apr 18, 2025 am 12:20 AM

Golang은 일반적으로 C보다 느리지 만 Golang은 동시 프로그래밍 및 개발 효율에 더 많은 장점이 있습니다. 1) Golang의 쓰레기 수집 및 동시성 모델은 높은 동시 시나리오에서 잘 수행합니다. 2) C는 수동 메모리 관리 및 하드웨어 최적화를 통해 더 높은 성능을 얻지 만 개발 복잡성이 높습니다.

Golang : 클라우드 컴퓨팅 및 DevOps의 핵심 언어Apr 18, 2025 am 12:18 AM

Golang은 클라우드 컴퓨팅 및 DevOps에서 널리 사용되며 장점은 단순성, 효율성 및 동시 프로그래밍 기능에 있습니다. 1) 클라우드 컴퓨팅에서 Golang은 Goroutine 및 채널 메커니즘을 통해 동시 요청을 효율적으로 처리합니다. 2) DevOps에서 Golang의 빠른 편집 및 크로스 플랫폼 기능이 자동화 도구의 첫 번째 선택입니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

Dreamweaver Mac版

시각적 웹 개발 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.