溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python編碼處理之 str與Unicode的區別是什么

發布時間：2020-09-10 09:19:43 來源：億速云閱讀：191 作者：小新欄目：編程語言

小編給大家分享一下Python編碼處理之 str與Unicode的區別是什么，希望大家閱讀完這篇文章后大所收獲，下面讓我們一起去探討吧！

用python處理中文，讀取文件或消息時，如果發現亂碼(字符串處理，讀寫文件，print)，大多數人的做法是，調用encode/decode進行調試，并沒有明確思考為何出現亂碼，今天我們來討論一下如何處理編碼問題。

調試時最常出現的錯誤

錯誤1

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ 
codec can‘t 
decode byte 0xe6 in position 0: ordinal not in range(128)

錯誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/
Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return 
codecs.utf_8_decode
(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: 
ordinal not in 
range(128)

首先

必須有大體概念，了解下字符集，字符編碼

ASCII | Unicode | UTF-8 | 等等

字符編碼筆記：ASCII，Unicode和UTF-8

str 和 unicode

str和unicode都是basestring的子類

所以有判斷是否是字符串的方法

def is_str(s): return isinstance(s, basestring)

str和unicode 轉換

str -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str

區別

str是字節串，由unicode經過編碼(encode)后的字節組成的

聲明方式

>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) <type ‘str‘>

求長度(返回字節數)

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘))

結論

搞明白要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

簡單原則：不要對str使用encode，不要對unicode使用decode (事實上可以對str進行encode的，具體見最后，為了保證簡單，不建議)

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ 
codec 
can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/
Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return 
codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in 
position 
0-1: ordinal not in range(128)

不同編碼轉換,使用unicode作為中間編碼

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

文件處理,IDE和控制臺

處理流程，可以這么使用，把python看做一個水池，一個入口，一個出口

入口處，全部轉成unicode, 池里全部使用unicode處理，出口處，再轉成目標編碼(當然，有例外，處理邏輯中要用到具體編碼的情況)

讀文件外部輸入編碼，decode轉成unicode 處理(內部編碼，統一unicode) encode轉成需要的目標編碼寫到目標輸出(文件或控制臺)

IDE和控制臺報錯，原因是print時，編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

>>> print u‘中文‘.encode(‘gbk‘) ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 中文

建議

規范編碼

統一編碼，防止由于某個環節產生的亂碼

環境編碼，IDE/文本編輯器, 文件編碼，數據庫數據表編碼

保證代碼源文件編碼

這個很重要

py文件默認編碼是ASCII, 在源代碼文件中，如果用到非ASCII字符，需要在文件頭部進行編碼聲明文檔

不聲明的話，輸入非ASCII會遇到的錯誤,必須放在文件第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; 
see http://www.python.org/peps/pep-0263.html for details

聲明方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部聲明coding=utf-8, a = ‘中文‘ 其編碼為utf-8

若頭部聲明coding=gb2312, a = ‘中文‘ 其編碼為gbk

so, 同一項目中所有源文件頭部統一一個編碼,并且聲明的編碼要和源文件保存的編碼一致(編輯器相關)

在源代碼用作處理的硬編碼字符串，統一用unicode

將其類型和源文件本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意這里 s到這里時，確保轉為unicode

以上幾步搞定后，你只需要關注兩個 unicode和你設定的編碼(一般使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later

相關模塊及一些方法

獲得和設置系統默認編碼

>>> import sys 
>>> sys.getdefaultencoding() ‘ascii‘  
>>> reload(sys) <module ‘sys‘ (built-in)> 
>>> sys.setdefaultencoding(‘utf-8‘) 
>>> sys.getdefaultencoding() ‘utf-8‘ 
>>> str.encode(‘other_coding‘)

在python中，直接將某種編碼的str進行encode成另一種編碼str

#str_A為utf-8 str_A.encode(‘gbk‘) 執行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 這里sys_codec即為上一步 sys.getdefaultencoding() 的編碼

‘獲得和設置系統默認編碼‘和這里的str.encode是相關的，但我一般很少這么用，主要是覺得復雜不可控,還是輸入明確decode，輸出明確encode來得簡單些

chardet

文件編碼檢測，下載

>>> import chardet 
>>> f = open(‘test.txt‘,‘r‘) 
>>> result = chardet.detect(f.read()) 
>>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}

\u字符串轉對應unicode字符串

>>> u‘中‘ u‘\u4e2d‘  
>>> s = ‘\u4e2d‘ 
>>> print s.decode(‘unicode_escape‘) 中  
>>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ 
>>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘

看完了這篇文章，相信你對Python編碼處理之 str與Unicode的區別是什么有了一定的了解，想了解更多相關知識，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Spring Boot REST國際化的實現代碼
下一篇新聞：
Python中__new__和__init__的區別是什么

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女