Python编码详解技术指南

Python编码详解

声明：本文转载自https://my.oschina.net/zhangyangyang/blog/1571021，转载目的在于传递更多信息，仅供学习交流之用。如有侵权行为，请联系我，我会及时删除。

字符串编码简介

计算机只能处理数字，文本转换为数字才能处理。计算机中8个bit作为一个字节，所以一个字节能表示最大的数字就是255
计算机是美国人发明的，所以一个字节可以表示所有字符了，所以ASCII(一个字节)编码就成为美国人的标准编码
但是ASCII处理中文明显是不够的，中文不止255个汉字，所以中国制了GB2312编码，用两个字节表示一个汉字。GB2312还把ASCII包含进去了，同理，日文，韩文等等上百个国家为了解决这个问题就都发展了一套字节的编码，标准就越来越多，如果出现多种语言混合显示就一定会出现乱码
于是unicode出现了，将所有语言统一到一套编码里
看一下ASCI和unicode编码:

字母A 用ASCI编码十进制是65,二进制0100 0001
汉字“中”已近超出了ASCII编码的范围，用unicode编码是20013 二进制是01001110 00101101
A用unicode编码只需要前面补0二进制是00000000 0100 0001

乱码问题解决了，但是如果内容全是英文，unicode编码比ASCI需要多一倍的存储空间，同时如果传输需要多一倍的传输。
所以出现了可变长的编码“utf-8”,把英文变长一个字节，汉字3个字节。特别生僻的变成4-6字节，如果传输大量的英文，utf8作用就很明显了

一、windows下环境演示

C:\Users\zhangyy49>python Python 2.7.12 (v2.7.12:d33e0cf91556, Jun 27 2016, 15:24:40) [MSC v.1500 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> test_str = "abc" >>> test_unicode = u"abc" >>> test_str.encode("utf8") 'abc' >>> test_unicode.encode("utf8") 'abc' >>> test_str2 = "中文" >>> test_unicode2 = u"中文" # python字符串在内存中是用unicode编码的 >>> test_str2.encode("utf8") Traceback (most recent call last):   File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xd6 in position 0: ordinal not in range(128) >>> test_unicode2.encode("utf8") '\xe4\xb8\xad\xe6\x96\x87' # decode作用是为了让其它编码格式转变为unicode编码，windows下test_str2编码是gb2312 >>> test_str2.decode("gb2312").encode("utf8") '\xe4\xb8\xad\xe6\x96\x87' >>>

二、linux下环境演示

[root@slave2 ~]# python Python 2.7.5 (default, Aug  4 2017, 00:39:18)  [GCC 4.8.5 20150623 (Red Hat 4.8.5-16)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> test_str = "中文" # linux下默认test_str的编码是utf8编码 >>> test_str.decode("utf8").encode("utf8") '\xe4\xb8\xad\xe6\x96\x87' >>> test_str.encode("utf8") Traceback (most recent call last):   File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

>>> import sys >>> sys.getdefaultencoding() 'ascii'

encode必须保证前面是unicode字符串，如果直接对字符串test_str直接encode的话，会先调用默认的编码进行decode，而默认的编码的是ascii，对中文转换成ascii会报错，所以就会出现如上错误

本文发表于2017年11月11日 22:34
(c)注：本文转载自https://my.oschina.net/zhangyangyang/blog/1571021，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权行为，请联系我们，我们会及时删除.

阅读 2670 讨论 0 喜欢 1

抢先体验
扫码体验趣味小程序文字表情生成器

抢先体验

扫码体验
趣味小程序
文字表情生成器

闪念胶囊
万稳万当，不如一默。任何一句话，你不说出来便是那句话的主人，你说了出来，便是那句话的奴隶。 18:22 2025年04月20日查看详情
你要过得好哇，这样我才能恨你啊，你要是过得不好，我都不知道该恨你还是拥抱你啊。 17:21 2021年04月19日查看详情
直抵黄龙府，与诸君痛饮尔。 18:17 2021年03月28日查看详情
那时陪伴我的人啊，你们如今在何方。 16:28 2021年03月19日查看详情
不出意外的话，我们再也不会见了，祝你前程似锦。 18:05 2021年03月17日查看详情

闪念胶囊

万稳万当，不如一默。任何一句话，你不说出来便是那句话的主人，你说了出来，便是那句话的奴隶。

18:22 2025年04月20日查看详情

你要过得好哇，这样我才能恨你啊，你要是过得不好，我都不知道该恨你还是拥抱你啊。

17:21 2021年04月19日查看详情

直抵黄龙府，与诸君痛饮尔。

18:17 2021年03月28日查看详情

那时陪伴我的人啊，你们如今在何方。

16:28 2021年03月19日查看详情

不出意外的话，我们再也不会见了，祝你前程似锦。

18:05 2021年03月17日查看详情

快捷链接
网站地图
提交友链

快捷链接

提交友链

Contact
Y2lvbkBjaGluYWNpb24uY24=

Contact

Python编码详解

字符串编码简介

Y2lvbkBjaGluYWNpb24uY24=