日韩一级片在线,国产麻豆免费观看91,亚洲国产二区三区久久

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > IT業(yè)界 >正文

帶你徹底搞明白python3編碼原理

發(fā)布時(shí)間：2023-07-03 15:29:58 作者：網(wǎng)友整理

在之前的文章中，我們介紹過(guò)編碼格式的發(fā)展史。今天我們通過(guò)幾個(gè)例子，來(lái)徹底搞清楚Python3中的編碼格式原理，這樣你之后寫(xiě)python腳本時(shí)碰到編碼問(wèn)題，才能有章可循。

我們先搞清楚幾個(gè)概念：

系統(tǒng)默認(rèn)編碼：指python解釋器默認(rèn)的編碼格式，在python文件頭部沒(méi)有聲明其他編碼格式時(shí)，python3默認(rèn)的編碼格式是utf-8。
本地默認(rèn)編碼：操作系統(tǒng)默認(rèn)的編碼，常見(jiàn)的windows的默認(rèn)編碼是gbk，linux的默認(rèn)編碼是UTF-8。
python文件頭部聲明編碼格式：修改的是文件的默認(rèn)編碼格式，只是會(huì)影響python解釋器讀取python文件時(shí)的編碼格式，并不會(huì)改變系統(tǒng)默認(rèn)編碼和本地默認(rèn)編碼。

通過(guò)python自帶的庫(kù)，可以查看系統(tǒng)默認(rèn)編碼和本地默認(rèn)編碼

CopyPython 3.7.4 (tags/v3.7.4:e09359112e, Jul 8 2019, 20:34:20) [MSC v.1916 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.getdefaultencoding()
'utf-8'
>>> import locale
>>> locale.getdefaultlocale()
('zh_CN', 'cp936')
>>>

注意，因?yàn)槲以趙indows系統(tǒng)的電腦上進(jìn)行測(cè)試，所以系統(tǒng)默認(rèn)編碼返回“cp936”, 這是代碼頁(yè)（是字符編碼集的別名），而936對(duì)應(yīng)的就是gbk。如果你在linux或者mac上執(zhí)行上面的代碼，應(yīng)該會(huì)返回utf-8編碼。

其實(shí)總結(jié)來(lái)看，容易出現(xiàn)亂碼的場(chǎng)景，基本都與讀寫(xiě)程序有關(guān)，比如：讀取/寫(xiě)入某個(gè)文件，或者從網(wǎng)絡(luò)流中讀取數(shù)據(jù)等，因?yàn)檫@個(gè)過(guò)程中涉及到了編碼和解碼的過(guò)程，只要編碼和解碼的編碼格式對(duì)應(yīng)不上，就容易出現(xiàn)亂碼。下面我們舉兩個(gè)具體的例子，來(lái)驗(yàn)證下python的編碼原理，幫助你理解這個(gè)過(guò)程。注意：下面的例子都是在pycharm中寫(xiě)的。

01默認(rèn)的編碼格式#

我們新建一個(gè)encode_demo.py的文件，其文件默認(rèn)的編碼格式是UTF-8（可以從pycharm右下角看到編碼格式），代碼如下：

Copy"""
 @author: asus
 @time: 2019/11/21
 @function: 驗(yàn)證編碼格式
"""
import sys, locale


def write_str_default_encode():
 s = "我是一個(gè)str"
 print(s)
 print(type(s))
 print(sys.getdefaultencoding())
 print(locale.getdefaultlocale())

 with open("utf_file", "w", encoding="utf-8") as f:
 f.write(s)
 with open("gbk_file", "w", encoding="gbk") as f:
 f.write(s)
 with open("jis_file", "w", encoding="shift-jis") as f:
 f.write(s)


if __name__ == '__main__':
 write_str_default_encode()

我們先來(lái)猜測(cè)下結(jié)果，因?yàn)槲覀儧](méi)有聲明編碼格式，所以python解釋器默認(rèn)用UTF-8去解碼文件，因?yàn)槲募J(rèn)編碼格式就是UTF-8，所以字符串s可以正常打印。同時(shí)以UTF-8編碼格式寫(xiě)文件不會(huì)出現(xiàn)亂碼，而以gbk和shift-jis（日文編碼）寫(xiě)文件會(huì)出現(xiàn)亂碼（這里說(shuō)明一點(diǎn)，我是用pycharm直接打開(kāi)生成的文件查看的，編輯器默認(rèn)編碼是UTF-8，如果在windows上用記事本打開(kāi)則其默認(rèn)編碼跟隨系統(tǒng)是GBK，gbk_file和utf_file均不會(huì)出現(xiàn)亂碼，只有jis_file是亂碼），我們運(yùn)行看下結(jié)果：

Copy# 運(yùn)行結(jié)果
我是一個(gè)str
<class 'str'>
utf-8
('zh_CN', 'cp936')

# 寫(xiě)文件utf_file、gbk_file、jis_file文件內(nèi)容分別是：
我是一個(gè)str
???????str
????str

和我們猜測(cè)的結(jié)果一致，下面我們做個(gè)改變，在文件頭部聲明個(gè)編碼格式，再來(lái)看看效果。

02 python頭文件聲明編碼格式#

因?yàn)樯厦嫖募ncode_demo.py的格式是UTF-8，那么我們就將其變?yōu)間bk編碼。同樣的我們先來(lái)推測(cè)下結(jié)果，在pycharm中，在python文件頭部聲明編碼為gbk后（頭部加上 # coding=gbk ），文件的編碼格式變成gbk，同時(shí)python解釋器會(huì)用gbk去解碼encode_demo.py文件，所以運(yùn)行結(jié)果應(yīng)該和用UTF-8編碼時(shí)一樣。運(yùn)行結(jié)果如下：

Copy# 運(yùn)行結(jié)果
我是一個(gè)str
<class 'str'>
utf-8
('zh_CN', 'cp936')

# 寫(xiě)文件utf_file、gbk_file、jis_file文件內(nèi)容分別是：
我是一個(gè)str
???????str
????str

結(jié)果確實(shí)是一樣的，證明我們推論是正確的。接下來(lái)我們?cè)僮鰝€(gè)嘗試，假如我們將（# coding=gbk）去掉（需要注意，在pycharm中將 # coding=gbk去掉，并不會(huì)改變文件的編碼格式，也就是說(shuō)encode_demo.py還是gbk編碼），我們?cè)龠\(yùn)行一次看結(jié)果：

Copy File "D:/codespace/python/pythonObject/pythonSample/basic/encodeDemo/encode_demo.py", line 4
SyntaxError: Non-UTF-8 code starting with '\xd1' in file D:/codespace/python/pythonObject/pythonSample/basic/encodeDemo/encode_demo.py on line 5, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

運(yùn)行直接報(bào)錯(cuò)了，我們加個(gè)斷點(diǎn)，看看具體的異常信息：

看錯(cuò)誤提示是UnicodeDecodeError，python解釋器在對(duì)encode_demo.py文件解碼時(shí)，使用默認(rèn)的UTF-8編碼，但是文件本身是gbk編碼，所以當(dāng)碰到有中文沒(méi)辦法識(shí)別時(shí)，就拋出DecodeError。

03 敲黑板，劃重點(diǎn)#

python3中的str和bytes#

python3的重要特性之一就是對(duì)字符串和二進(jìn)制流做了嚴(yán)格的區(qū)分，我們聲明的字符串都是str類(lèi)型，不過(guò)Str和bytes是可以相互轉(zhuǎn)換的：

Copydef str_transfor_bytes():
 s = '我是一個(gè)測(cè)試Str'
 print(type(s))
 # str 轉(zhuǎn)bytes
 b = s.encode()
 print(b)
 print(type(b))
 # bytes轉(zhuǎn)str
 c = b.decode('utf-8')
 print(c)
 print(type(c))


if __name__ == '__main__':
 str_transfor_bytes()

需要注意一點(diǎn)：在調(diào)用encode()和decode()方法時(shí)，如果不傳參數(shù)，則會(huì)使用python解釋器默認(rèn)的編碼格式UTF-8（如果不在python頭文件聲明編碼格式）。但是如果傳參的話(huà)，encode和decode使用的編碼格式要能對(duì)應(yīng)上。

python3默認(rèn)編碼是UTF-8？還是Unicode？#

經(jīng)常在很多文章里看到，python3的默認(rèn)編碼格式是Unicode，但是我在本文中卻一直在說(shuō)python3的默認(rèn)編碼格式是UTF-8，那么哪種說(shuō)法是正確的呢？其實(shí)兩種說(shuō)法都對(duì)，主要得搞清楚Unicode和UTF-8的區(qū)別（之前文章有提到）：

Unicode是一個(gè)字符集，說(shuō)白了就是把各種編碼的映射關(guān)系全都整合起來(lái)，不過(guò)它是不可變長(zhǎng)的，全部都以?xún)蓚€(gè)字節(jié)或四個(gè)字節(jié)來(lái)表示，占用的內(nèi)存空間比較大。
UTF-8是Unicode的一種實(shí)現(xiàn)方式，主要對(duì) Unicode 碼的數(shù)據(jù)進(jìn)行轉(zhuǎn)換，方便存儲(chǔ)和網(wǎng)絡(luò)傳輸。它是可變長(zhǎng)編碼，比如對(duì)于英文字母，它使用一個(gè)字節(jié)就可以表示。

在python3內(nèi)存中使用的字符串全都是Unicode碼，當(dāng)python解釋器解析python文件時(shí)，默認(rèn)使用UTF-8編碼。

open()方法默認(rèn)使用本地編碼#

在上面的例子中，我們往磁盤(pán)寫(xiě)入文件時(shí)，都指定了編碼格式。如果不指定編碼格式，那么默認(rèn)將使用操作系統(tǒng)本地默認(rèn)的編碼格式，比如：Linux默認(rèn)是UTF-8，windows默認(rèn)是GBK。其實(shí)這也好理解，因?yàn)楹痛疟P(pán)交互，肯定要考慮操作系統(tǒng)的編碼格式。這有區(qū)別于encode()和decode()使用的是python解釋器的默認(rèn)編碼格式，千萬(wàn)別搞混淆了。

總結(jié)#

不知道你看完上面的例子后，是否已經(jīng)徹底理解了python3的編碼原理。不過(guò)所有的編碼問(wèn)題，都逃不過(guò)“編碼”和“解碼”兩個(gè)過(guò)程，當(dāng)你碰到編碼問(wèn)題時(shí)，先確定源文件使用的編碼，再確定目標(biāo)文件需要的編碼格式，只要能匹配，一般就可以解決編碼的問(wèn)題。

最后，小編想說(shuō)：我是一名python開(kāi)發(fā)工程師，整理了一套最新的python系統(tǒng)學(xué)習(xí)教程，想要這些資

分享到：

標(biāo)簽：編碼 python