當我們用open()函數去開啟檔案的時候,有好幾種開啟的模式。
'r'->只讀
'w'->只寫,檔案已存在則清空,不存在則建立。
'a'->追加,寫到檔案結尾
'b'->二進位模式,例如開啟影像、音訊、word檔案。
'+'->更新(可讀可寫)
這個帶'+'號的有點難以理解,上代碼感受下。
with open('foo.txt', 'w+') as f: f.write('bar\n') f.seek(0) data = f.read()
可以看到,上面這段程式碼,它不但可以寫,還可以讀出來。注意要先定位到開頭,f.seek(0),不然讀出來的是空資料。
有些人可能會有迷惑,既然帶'+'號是可讀可寫,那'w+'跟'r+'有什麼不同。
那就是,
'w+'會清空,會創建(文件已存在則清空,不存在則創建。)
'r+'不清空,不創建
不要用二進制模式打開文本文件
先看下面程式碼的「詭異」現象。
假設在windows下,我有f.txt文件,裡面的內容是下面這樣的。
hello
world
代碼一,
with open('f.txt', 'r') as f: print f.readlines() with open('f.txt', 'rb') as f: print f.readlines()
輸出
['hellon', 'worldn']
文件,變成了下面這樣,
hello^M
world^M
首先,先理解換行符'n'跟回車符'r'的概念。
'n',換行符(LF,Line-Feed ),指新的一行。
'r',回車符(CR,Carriage-Return),指回到行頭。
因為在不同系統下的換行標識是不一樣的。
windows->'rn'
unix->'n'
mac->'r'
這就是為什麼windows下的txt在linux打開的時候行尾會有'^M'。
這就是為什麼我在linux下跑腳本導出遊戲資料下到本地windows打開變成了一行。
其實文字檔案也是二進位文件,是文字編碼的二進位文件,文字檔案對一些不可見字元進行了處理,增加可讀性。
在python中,可以透過os.linesep取得目前系統的換行標識。例如在windows下,os.linesep是'rn'。
在python中操作換行標識的時候,並不用管是在什麼平台下,直接用'n'就行了,python會自動根據不同系統轉成不同標識。
有了上面這些理論依據,就可以解析本文開頭程式碼的「詭異」現象了。
程式碼一中,用文字模式開啟的文件,換行標識會被python處理成'n',而用二進位模式開啟則原封不動。
代碼二中,用二進位模式打開,用文字模式寫入。二進位打開原封不動還是'rn',而文本模式寫入的時候因為python會把'n'轉成'rn',所以其實就等於是寫入了'rrn',於是就多了個'^M '。