Python|如何讓文件讀取不再亂碼
有時在讀取文件時是否會出現亂碼?因為在中文Windows系統中,如果不指定文本文件的編碼,那么它就會采用系統默認的GBK編碼,即一個英文字符是ASCII碼,一個漢字是兩個字節的內碼。文件的本質是二進制文件,相同的文本采用不同的編碼得到的二進制數據是不同的。
解決方案:
GBK編碼執行文件后是7個字節,分別是Ox61Ox62 OX63 Oxce Oxd2 Oxc3 Oxc7
fobj=open('c:\\abc.txt','wt',encoding=’gbk’)fobj.write('abc 我們')fobj.close()
其中前三個是abc符號,Oxce Oxd2是‘我’,Oxc3 Oxc7是‘們’。而在open中用encoding參數指定UTF-8編碼,執行后就是9個字符,它們分別是:Ox61 Ox62 Ox63 Oxe6 Ox88 Ox91 Oxe4 OxbbOxac.其中Oxe6 Ox88 Ox91是‘我’,Oxe4 Oxbb Oxac是‘們’。
使用方法:
def writeFile():
f=open('abc.txt','wt',encoding='utf-8')
f.write('abc我們')
f.close()def readFile():
f=open('abc.txt','rt',encoding='utf-8')
for s in f.readlines(): print(s,end='')
f.close()try: writeFile()
readFile()except Exception as e:
print(e)
#運行結果adc我們
當使用的編碼不一致時就會出現以下情況:
def writeFile():
f=open('abc.txt','wt',encoding='utf-8')
f.write('abc我們')
f.close()def readFile():
f=open('abc.txt','rt',encoding='gbk')
for s in f.readlines():
print(s,end='')
f.close()try:
writeFile() readFile()except Exception as e:
print(e)
#運行結果abc鎴戜滑
結語
文本讀取的默認編碼是GBK,所以想用GBK讀文件時可以用encoding參數,也可以不用,它會默認的使用GBK,但如果要使用UTF-8編碼就必須用encoding參數指定。
好啦!今天的分享到這里就結束了,希望大家持續關注馬哥教育官網,每天都會有大量優質內容與大家分享
好啦!今天的分享到這里就結束了,希望大家持續關注馬哥教育官網,每天都會有大量優質內容與大家分享!版權聲明:轉載文章來自公開網絡,版權歸作者本人所有,推送文章除非無法確認,我們都會注明作者和來源。如果出處有誤或侵犯到原作者權益,請與我們聯系刪除或授權事宜。