golang怎么高效处理大文件-Golang-PHP中文网

首页

后端开发

Golang

golang怎么高效处理大文件

藏色散人

May 12, 2021 am 11:52 AM

下面由golang教程栏目给大家介绍golang高效处理大文件_使用Pandas分块处理大文件，希望对需要的朋友有所帮助！

使用Pandas分块处理大文件

问题：今天在处理快手的用户数据时，遇到了一个差不多600M的txt文本，用sublime打开都蹦了，我用pandas.read_table()去读，差不多花了近2分钟，最后打开发现差不多3千万行数据。这仅仅是打开，如果要处理不知得多费劲。

解决：我翻了一下文档，这一类读取文件的函数有两个参数：chunksize、iterator

原理就是不一次性把文件数据读入内存中，而是分多次。

1、指定chunksize分块读取文件

read_csv 和 read_table 有一个 chunksize 参数，用以指定一个块大小(每次读取多少行)，返回一个可迭代的 TextFileReader 对象。

table=pd.read_table(path+&#39;kuaishou.txt&#39;,sep=&#39;t&#39;,chunksize=1000000)
for df in table:
    对df处理
    #如df.drop(columns=[&#39;page&#39;,&#39;video_id&#39;],axis=1,inplace=True)
    #print(type(df),df.shape)打印看一下信息

我这里又对文件进行了划分，分成若干个子文件分别处理（没错，to_csv也同样有chunksize参数）

2、指定iterator=True

iterator=True同样返回的是TextFileReader对象

reader = pd.read_table(&#39;tmp.sv&#39;, sep=&#39;t&#39;, iterator=True)
df=reader.get_chunk(10000)
#通过get_chunk(size)，返回一个size行的块
#接着同样可以对df处理

直接看看pandas文档在这一方面的内容吧。

以上是golang怎么高效处理大文件的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：csdn。如有侵权，请联系admin@php.cn删除

学习GO String操纵：使用'字符串”软件包May 09, 2025 am 12:07 AM

Go的"strings"包提供了丰富的功能，使字符串操作高效且简单。1)使用strings.Contains()检查子串。2)strings.Split()可用于解析数据，但需谨慎使用以避免性能问题。3)strings.Join()适用于格式化字符串，但对小数据集，循环使用 =更有效。4)对于大字符串，使用strings.Builder构建字符串更高效。

GO：使用标准'字符串”包的字符串操纵May 09, 2025 am 12:07 AM

Go语言使用"strings"包进行字符串操作。1)拼接字符串使用strings.Join函数。2)查找子串使用strings.Contains函数。3)替换字符串使用strings.Replace函数，这些函数高效且易用，适用于各种字符串处理任务。

使用GO的'字节”软件包掌握字节切片操作：实用指南May 09, 2025 am 12:02 AM

资助bytespackageingoisesential foreffited byteSemanipulation，uperingFunctionsLikeContains，index，andReplaceForsearchingangingAndModifyingBinaryData.itenHancesperformanceNandCoderAceAnibility，MakeitiTavitalToolToolToolToolToolToolToolToolToolForhandLingBinaryData，networkProtocols，networkProtocoLss，networkProtocols，andetFilei

学习GO二进制编码/解码：使用'编码/二进制”软件包May 08, 2025 am 12:13 AM

Go语言使用"encoding/binary"包进行二进制编码与解码。1)该包提供binary.Write和binary.Read函数，用于数据的写入和读取。2)需要注意选择正确的字节序（如BigEndian或LittleEndian）。3)数据对齐和错误处理也是关键，确保数据的正确性和性能。

GO：带有标准'字节”软件包的字节切片操作May 08, 2025 am 12:09 AM

1）usebybytes.joinforconcatenatinges，2）bytes.bufferforincrementalWriter，3）bytes.indexorbytes.indexorbytes.indexbyteforsearching bytes.bytes.readereforrednerncretinging.isnchunk.ss.ind.inc.softes.4）

进行编码/二进制包：优化二进制操作的性能May 08, 2025 am 12:06 AM

theencoding/binarypackageingoiseforporptimizingBinaryBinaryOperationsDuetoitssupportforendiannessessandefficityDatahandling.toenhancePerformance：1）usebinary.nativeendiandiandiandiandiandiandiandian nessideendian toavoid avoidByteByteswapping.2）

Go Bytes软件包：简短的参考和提示May 08, 2025 am 12:05 AM

Go的bytes包主要用于高效处理字节切片。1)使用bytes.Buffer可以高效进行字符串拼接，避免不必要的内存分配。2)bytes.Equal函数用于快速比较字节切片。3)bytes.Index、bytes.Split和bytes.ReplaceAll函数可用于搜索和操作字节切片，但需注意性能问题。

Go Bytes软件包：字节切片操纵的实例May 08, 2025 am 12:01 AM

字节包提供了多种功能来高效处理字节切片。1)使用bytes.Contains检查字节序列。2)用bytes.Split分割字节切片。3)通过bytes.Replace替换字节序列。4)用bytes.Join连接多个字节切片。5)利用bytes.Buffer构建数据。6)结合bytes.Map进行错误处理和数据验证。

See all articles