首页 >后端开发 >Golang >丢失记录之谜:在 Go 中调试 JSON 到 CSV 的转换

丢失记录之谜:在 Go 中调试 JSON 到 CSV 的转换

Barbara Streisand
Barbara Streisand原创
2024-11-02 09:31:311023浏览

The Mystery of Missing Records: Debugging a JSON-to-CSV Transformation in Go

在我的一个业余项目中构建数据转换实用程序时,我需要将 JSON 格式的文件转换为 CSV 格式。我遇到了一个棘手的问题,花了近一个小时进行调试才确定根本原因。

这个过程应该很简单,包括三个主要步骤:

  1. 打开 JSON 文件
  2. 将该 JSON 文件解析为特定结构
  3. 将数据写入 CSV 文件 首先,让您了解一下,JSON 是一个包含 65,342 个元素的数组。
func JsonToCSV(data *SrcSheet) {
    // Create file name in a format like "email_241030172647.csv" (email_yymmddhhmmss.csv)
    fName := fileName()

    // Create file
    f, err := os.Create(fName)
    if err != nil {
        log.Println("Unable to create file", err)
        return
    }
    defer f.Close() // Closing to release resources
    w := csv.NewWriter(f) // Initializing CSV writer

    // Add header
    header := []string{"email", "provider", "added_on"}
    if err = w.Write(header); err != nil {
        log.Println("Unable to write header", err)
        return
    }

    count := 0
    for domain, elm := range data.Email {
        if err := w.Write(newRecord(domain, elm)); err != nil {
            log.Println("Unable to add new record", domain, err)
            return
        } else {
            count++
        }
    }

    log.Println("Number of records written =", count)
}

func newRecord(email string, e *SrcElements) []string {
    if e == nil {
        return nil
    }

    DBFormat := "2006-01-02 15:04:05.000"
    addedOn := time.Now().UTC().Format(DBFormat)

    r := []string{email, e.Provider, addedOn}
    return r
}

代码很简单:创建一个具有特定名称格式的新文件,推迟其关闭,初始化 CSV 编写器,然后开始写入该文件。超级简单吧?

步骤 1 和 2 效果很好,所以省略了。让我们将焦点转移到步骤 3,其中发生了意外的情况:CSV 输出仅包含 65,032 条记录,这意味着缺少 310 条记录。

为了排除故障,我尝试了仅使用 7 个 JSON 元素(而不是 65,032 个)的代码。令人惊讶的是,CSV 文件中根本没有写入任何内容!

我仔细检查了一些简单的错误,比如缺少文件关闭,但一切看起来都很好。然后我重试了完整的 65,032 个元素,希望能获得更多线索。这时我发现不仅少了310条记录,而且最后一条记录也不完整。

65030 adam@gmail.com, gmail, 2023-03-17 15:04:05.000
65031 jac@hotmail.com, hotmail, 2023-03-17 15:04:05.000
65032 nancy@xyz.com, hotmail, 2023-03-

这是进步——我现在可以缩小问题范围并专注于 w.Write(newRecord(domain, elm)),特别是 w.Write(...) 方法。我查了文档,找到了原因:

...写入会被缓冲,因此最终必须调用 [Writer.Flush] 以确保记录写入底层 io.Writer ...

我忘记调用 w.Flush()。这是有道理的,因为从性能角度来看,CSV 编写器会缓冲写入,而不是每次调用 w.Write() 时执行 I/O 操作。通过缓冲数据,它减少了 I/O 负载,并在最后调用 w.Flush() 确保缓冲区中的任何剩余数据都写入文件。

这是更正后的代码:

...
f, err := os.Create(fName)
    if err != nil {
        log.Println("Unable to create file", err)
        return
    }
    defer f.Close()
    w := csv.NewWriter(f)
    defer w.Flush()

    // Add header
    header := []string{"email", "provider", "added_on"}
...

为了确认,我检查了 bufio.go 源代码,发现默认缓冲区大小为 4K。在 WriteRune(...) 方法中,您将看到每当缓冲区达到其限制时它就会调用 Flush。

就这些了!我希望你喜欢阅读。我倾向于从错误中学到很多东西——无论是我的还是别人的。即使没有立即解决办法,发现错误的方法也可以帮助我避免将来陷入类似的陷阱。这就是为什么我想分享这个经验!

以上是丢失记录之谜:在 Go 中调试 JSON 到 CSV 的转换的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn