>백엔드 개발 >Golang >누락된 레코드의 미스터리: Go에서 JSON을 CSV로 변환 디버깅

누락된 레코드의 미스터리: Go에서 JSON을 CSV로 변환 디버깅

Barbara Streisand
Barbara Streisand원래의
2024-11-02 09:31:311020검색

The Mystery of Missing Records: Debugging a JSON-to-CSV Transformation in Go

사이드 프로젝트 중 하나에서 데이터 변환을 위한 유틸리티를 구축하는 동안 JSON 형식의 파일을 CSV 형식으로 변환해야 했습니다. 근본 원인을 파악하기까지 디버깅하는 데 거의 한 시간이 걸리는 까다로운 문제에 직면했습니다.

3가지 주요 단계로 구성된 프로세스는 간단해야 합니다.

  1. JSON 파일 열기
  2. JSON 파일을 특정 구조체로 구문 분석
  3. CSV 파일에 데이터 쓰기 먼저, JSON은 65,342개의 요소로 구성된 배열입니다.
func JsonToCSV(data *SrcSheet) {
    // Create file name in a format like "email_241030172647.csv" (email_yymmddhhmmss.csv)
    fName := fileName()

    // Create file
    f, err := os.Create(fName)
    if err != nil {
        log.Println("Unable to create file", err)
        return
    }
    defer f.Close() // Closing to release resources
    w := csv.NewWriter(f) // Initializing CSV writer

    // Add header
    header := []string{"email", "provider", "added_on"}
    if err = w.Write(header); err != nil {
        log.Println("Unable to write header", err)
        return
    }

    count := 0
    for domain, elm := range data.Email {
        if err := w.Write(newRecord(domain, elm)); err != nil {
            log.Println("Unable to add new record", domain, err)
            return
        } else {
            count++
        }
    }

    log.Println("Number of records written =", count)
}

func newRecord(email string, e *SrcElements) []string {
    if e == nil {
        return nil
    }

    DBFormat := "2006-01-02 15:04:05.000"
    addedOn := time.Now().UTC().Format(DBFormat)

    r := []string{email, e.Provider, addedOn}
    return r
}

코드는 간단합니다. 특정 이름 형식으로 새 파일을 만들고, 파일 닫기를 연기하고, CSV 작성기를 초기화하고, 파일 쓰기를 시작합니다. 초간단하죠?

1, 2단계는 잘 진행되었으므로 생략했습니다. 예상치 못한 일이 발생한 3단계로 초점을 옮겨 보겠습니다. CSV 출력에는 65,032개의 레코드만 포함되어 310개의 레코드가 누락되었음을 의미합니다.

문제를 해결하기 위해 65,032개 대신 JSON 요소 7개만으로 코드를 시도했습니다. 놀랍게도 CSV 파일에는 전혀 아무것도 쓰여지지 않았습니다!

파일 닫힘 누락과 같은 간단한 실수가 있는지 다시 확인했지만 모든 것이 괜찮아 보였습니다. 그런 다음 더 많은 단서를 얻기 위해 전체 65,032개 요소를 사용하여 다시 시도했습니다. 그때 310개의 레코드가 누락되었을 뿐만 아니라 마지막 레코드도 불완전하다는 사실을 깨달았습니다.

65030 adam@gmail.com, gmail, 2023-03-17 15:04:05.000
65031 jac@hotmail.com, hotmail, 2023-03-17 15:04:05.000
65032 nancy@xyz.com, hotmail, 2023-03-

이제 진전이 있었습니다. 이제 문제의 범위를 좁히고 w.Write(newRecord(domain, elm)), 특히 w.Write(...) 메서드에 집중할 수 있었습니다. 문서를 확인하고 이유를 찾았습니다.

... 쓰기는 버퍼링되므로 레코드가 기본 io.Writer에 기록되었는지 확인하기 위해 결국 [Writer.Flush]를 호출해야 합니다...

w.Flush()를 호출하는 것을 잊어버렸습니다. 이는 성능 관점에서 w.Write()가 호출될 때마다 I/O 작업을 실행하는 대신 CSV 기록기가 쓰기를 버퍼링하기 때문에 의미가 있습니다. 데이터를 버퍼링하여 I/O 로드를 줄이고 마지막에 w.Flush()를 호출하면 버퍼에 남아 있는 모든 데이터가 파일에 기록됩니다.

수정된 코드는 다음과 같습니다.

...
f, err := os.Create(fName)
    if err != nil {
        log.Println("Unable to create file", err)
        return
    }
    defer f.Close()
    w := csv.NewWriter(f)
    defer w.Flush()

    // Add header
    header := []string{"email", "provider", "added_on"}
...

확인을 위해 bufio.go 소스 코드를 확인해 보니 기본 버퍼 크기가 4K인 것으로 나타났습니다. WriteRune(...) 메서드에서는 버퍼가 한계에 도달할 때마다 Flush를 호출하는 것을 볼 수 있습니다.

그게 다예요! 재미있게 읽으셨기를 바랍니다. 나는 내 실수든 다른 사람의 실수든 실수로부터 많은 것을 배우는 경향이 있습니다. 즉각적인 해결책이 없더라도 잘못된 접근 방식을 발견하면 향후 유사한 함정을 피하는 데 도움이 됩니다. 그래서 이 경험을 공유하고 싶었습니다!

위 내용은 누락된 레코드의 미스터리: Go에서 JSON을 CSV로 변환 디버깅의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.