Go를 사용한 대규모 CSV 처리-Golang-php.cn

집

백엔드 개발

Golang

Go를 사용한 대규모 CSV 처리

Linda Hamilton

Nov 27, 2024 am 12:54 AM

아이디어는 다음과 같습니다.

대형 더미 CSV(100만 행)에 고객 데이터 샘플이 포함되어 있으며 아래 목표에 따라 처리를 수행합니다.

CSV에서 데이터 추출

데이터/행 수 계산

도시별 고객 수를 그룹화

고객 수를 기준으로 도시를 높은 것부터 낮은 것 순으로 정렬

처리 시간 계산

고객의 샘플 CSV는 여기에서 다운로드할 수 있습니다 https://github.com/datablist/sample-csv-files

데이터 로드 및 추출

분명히 Go에는 CSV 처리를 위한 표준 lib가 있습니다. 더 이상 문제를 해결하기 위해 제3자 의존성이 필요하지 않습니다. 이는 좋은 일입니다. 따라서 해결책은 매우 간단합니다.

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

주어진 경로에서 파일을 엽니다
열린 파일을 csv 리더로 로드
추출된 모든 csv 레코드/행 값을 나중에 처리하기 위해 레코드 조각에 보관합니다

FieldsPerRecord는 -1로 설정됩니다. 필드나 열 개수가 형식마다 다를 수 있으므로 행에서 필드 확인을 건너뛰고 싶기 때문입니다.

이 상태에서는 이미 csv의 모든 데이터를 로드하고 추출할 수 있으며 다음 처리 상태로 이동할 준비가 되어 있습니다. 또한 len(records) 함수를 사용하여 CSV의 행 수를 알 수 있습니다.

총 고객을 각 도시로 그룹화

이제 기록을 반복하여 도시 이름과 총 고객이 다음과 같은 지도를 만들 수 있습니다.

["Jakarta": 10, "Bandung": 200, ...]

csv 행의 도시 데이터는 7번째 인덱스에 위치하며 코드는 다음과 같습니다

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

도시 지도가 없으면 새 지도를 만들고 총 고객 수를 1로 설정하세요. 그렇지 않으면 해당 도시의 총 수를 늘리세요.

이제 우리는 도시 컬렉션과 그 안에 있는 고객 수를 포함하는 지도 m을 갖게 되었습니다. 이 시점에서 우리는 각 도시의 고객 수를 그룹화하는 문제를 이미 해결했습니다.

총 고객 수가 가장 높은 정렬

표준 라이브러리에 지도를 정렬하는 기능이 있는지 찾아보았지만 아쉽게도 찾을 수 없었습니다. 인덱스 위치를 기준으로 데이터 순서를 재정렬할 수 있으므로 슬라이스에 대해서만 정렬이 가능합니다. 그럼, 현재 지도에서 한 조각을 만들어 보겠습니다.

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

이제 CustomerCount를 기준으로 가장 높은 것에서 가장 낮은 것으로 정렬하는 방법은 무엇입니까? 이에 대한 가장 일반적인 알고리즘은 버블 쇼트를 사용하는 것입니다. 가장 빠르지는 않지만 작업을 수행할 수 있습니다.

버블 정렬은 인접한 요소의 순서가 잘못된 경우 반복적으로 교체하여 작동하는 가장 간단한 정렬 알고리즘입니다. 이 알고리즘은 평균 및 최악의 경우 시간 복잡도가 상당히 높기 때문에 대규모 데이터 세트에는 적합하지 않습니다.

참고: https://www.geeksforgeeks.org/bubble-sort-algorithm/

슬라이스를 사용하면 데이터를 반복하여 인덱스의 다음 값을 확인하고 현재 데이터가 다음 인덱스보다 작으면 교체합니다. 자세한 알고리즘은 참고사이트에서 확인하실 수 있습니다.

이제 정렬 과정은 다음과 같을 수 있습니다

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

루프가 끝날 때쯤 최종 조각은 정렬된 데이터를 제공합니다.

처리 시간 계산

처리 시간을 계산하는 것은 매우 간단합니다. 프로그램의 기본 프로세스를 실행하기 전과 후에 타임스탬프를 얻어 차이를 계산합니다. Go에서는 접근 방식이 충분히 간단해야 합니다.

["Jakarta": 10, "Bandung": 200, ...]

결과

명령어로 프로그램 실행

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

행수, 정렬된 데이터, 처리 시간이 인쇄됩니다. 아래와 같습니다:

Large CSV Processing Using Go

Go 성능 역시 100만행 csv를 1초 안에 처리!

완성된 모든 코드는 이미 내 Github 저장소에 게시되어 있습니다.

https://github.com/didikz/csv-processing/tree/main/golang

교훈을 얻었습니다

Go의 CSV 처리는 이미 표준 lib에서 사용 가능하므로 타사 lib를 사용할 필요가 없습니다
데이터 처리는 매우 쉽습니다. 데이터를 수동으로 정렬해야 하기 때문에 데이터를 정렬하는 방법을 찾는 것이 어려웠습니다

무엇이 떠오르나요?

매핑할 CSV를 추출한 모든 레코드를 루프 처리했고 ReadAll() 소스에서 확인한 경우 지정된 파일 리더를 기반으로 슬라이스를 생성하는 루프도 있기 때문에 현재 솔루션이 더욱 최적화될 수 있다고 생각했습니다. 이로 인해 1 Mil 행은 1 Mil 데이터에 대해 2 x 루프를 생성할 수 있는데 이는 좋지 않습니다.

파일 리더에서 직접 데이터를 읽을 수 있다면 맵을 직접 생성할 수 있기 때문에 루프가 1개만 필요하다고 생각했습니다. 단, 레코드 조각은 다른 곳에서는 사용되지만 이 경우에는 사용되지 않습니다.

아직 알아낼 시간이 없지만 수동으로 할 경우 몇 가지 단점도 생각했습니다.

아마도 구문 분석 과정에서 더 많은 오류를 처리해야 할 것입니다
해결 방법을 고려하여 처리 시간을 줄이는 것이 얼마나 중요한지 잘 모르겠습니다

즐거운 코딩하세요!

위 내용은 Go를 사용한 대규모 CSV 처리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

오류 처리 : 모범 사례 및 패턴May 04, 2025 am 12:19 AM

GO 프로그래밍에서 오류를 효과적으로 관리하는 방법은 다음과 같습니다. 1) 예외 대신 오류 값 사용, 2) 오류 랩핑 기술 사용, 3) 사용자 지정 오류 유형 정의, 4) 성능에 대한 오류 값 재사용, 5) 경고와 함께 공황 및 복구 사용, 6) 오류 처리 전략을 기록하고, 오류 처리, 8) 오류를 사용하여 오류가 발생합니다. 이러한 관행과 패턴은보다 강력하고 유지 관리 가능하며 효율적인 코드를 작성하는 데 도움이됩니다.

GO에서 동시성을 어떻게 구현합니까?May 04, 2025 am 12:13 AM

GOROONE 및 채널을 사용하여 동시성을 구현할 수 있습니다. 1) Goroutines를 사용하여 예를 들어 음악을 즐기고 친구를 동시에 관찰하는 등의 작업을 병렬로 수행하십시오. 2) 생산자 및 소비자 모델과 같은 채널을 통해 고 루틴간에 데이터를 안전하게 전송합니다. 3) Goroutines와 교착 상태의 과도한 사용을 피하고 동시 프로그램을 최적화하기 위해 시스템을 합리적으로 설계하십시오.

이동 중에 동시 데이터 구조를 구축합니다May 04, 2025 am 12:09 AM

GOOFFERSMULTIPLEAPLEACHELINDINGCURRENTDATDATDATDATRUCTRUCES (MUTEXES, 채널, 및 및 원자가 포함

GO의 오류 처리를 다른 프로그래밍 언어와 비교합니다May 04, 2025 am 12:09 AM

go'serrorhandlingsexplicit, treatingerrorserSreturnEdValuesratherthanexceptions, 1) Go'sportroachensureserorawarensessbutcanleadtoverbosecode.2) pythonandjavauseexeceptionsforcleanercodebutmiserrors.3) go'smethodoTodoTand

이동 중에 시작 함수에 의존하는 테스트 코드May 03, 2025 am 12:20 AM

WhentestinggocodewithInitFunctions, useExplicitSetUpFunctionsOrsParateTestOvoiddenceNInItfictionSideffects.1) useExplicitSetUpFunctoControlGlobalVariableInitialization.2) CreateSeparateTesteSpilestobySinitFunctions 및 testesten

GO의 오류 처리 방식을 다른 언어와 비교합니다May 03, 2025 am 12:20 AM

go'serrorhandlingreturnserrorsvalues whithuseexceptions와 달리 1) Go'sMethodensuresexpliciterRorhandling, promotingrobustcodebutincreasingverbosity.2) Javaandthon'sexextionslowercodebutcodebutcodebutcanlederforlortorifneterfortorifneteriflerortorifnetrorirederiflofertorifneateRoferfortoriflogertoflortoflerortofneateRofer

효과적인 인터페이스 설계를위한 모범 사례May 03, 2025 am 12:18 AM

AneffectiveInterfaceingoisminimal, Clear, and Promotesloosecoupling.1) Minimizetheinterfaceforflexibilityandeasofimplementation.2) usicfacesforabStractionToswapimementationswhangingCallingCode.3) DesignStabilitySUsingInterfacestomockDep

중앙 집중식 오류 처리 전략May 03, 2025 am 12:17 AM

중앙 집중식 오류 처리는 GO 언어에서 코드의 가독성과 유지 가능성을 향상시킬 수 있습니다. 구현 방법 및 장점에는 다음이 포함됩니다. 1. 비즈니스 로직에서 별도의 오류 처리 로직 및 코드를 단순화합니다. 2. 중앙 처리로 오류 처리의 일관성을 확인하십시오. 3. 연기 및 복구를 사용하여 공황을 포착하고 처리하여 프로그램 견고성을 향상시킵니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

드림위버 CS6

시각적 웹 개발 도구

Dreamweaver Mac版

시각적 웹 개발 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.