Rumah >pembangunan bahagian belakang >Tutorial Python >使用python包含汉字的文件读写末尾加上特定字符方法介绍

使用python包含汉字的文件读写末尾加上特定字符方法介绍

高洛峰asal: 2017-03-20 13:07:401705semak imbas

在数据挖掘中，原始文件的格式往往是令人抓狂，很重要的一步是对数据文件的格式进行整理。

最近，接手的项目里，提供的数据文件格式简直让人看不下去，使用pandas打不开，一直是io error.仔细查看，发现文件中很多行数据是以"结尾，然而其他行缺失，因而需求也就很明显了：判断每行的结尾是否有"，没有的话，加上就好了。

采用倒叙的方式好了，毕竟很多人需要的只是一个快速的解决方案，而不是一个why. 解决方案如下：

b = open(&#39;b_file.txt&#39;, w)
with open(&#39;a_file.txt&#39;, &#39;r&#39;) as lines:
    for line in lines:
        line = line.strip()
        if not line.endswith(r&#39;"&#39;):
            line += r&#39;"&#39;
        line += &#39;\n&#39;
        b.write(line)

b.close()
a.close()

其中整个过程的关键在于

line = line.strip()

　　之前我偷懒，直接使用省去了上面那行，结果在判断条件栽了跟头，程序认为每一行都不是以"结尾：

if not line.endswith(r'"')

硬着头皮试上去，重写：

for line in open(data_path+&#39;heheda.txt&#39;, &#39;r&#39;):
    if not line[-2] == r&#39;"&#39;:
        print line
        line = line[:-1] + r&#39;"&#39; + line[-1:]
        print line

此时判断条件为 if not line[-2] == r'"'，这样才能得到除最后一行之外的正确结果。众所周知的原因，在windows系统中，文件的回车符是"\r\n"，因而，在没有strip()处理好回车符的时候，需要手动在每一行的结尾前移一个字节进行判断每行的末尾。而对于文件的最后一行，一般情况下不是回车符作为结尾，毕竟不要换行了嘛。因而line[-2]则定位到了最后一个汉字的中间，将\xx\xx，硬写成了\xx"\xx，使得最后一个字显示错误。

Atas ialah kandungan terperinci 使用python包含汉字的文件读写末尾加上特定字符方法介绍. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：python学习enumerate实践用法介绍Artikel seterusnya：详解python中Threadpool线程池任务终止示例代码

Artikel berkaitan

Lihat lagi