这篇教程Python字符串编码转换 encode()和decode()方法详细说明写得很实用,希望能帮到您。 前言: 我们知道,最早的字符串编码是 ASCII 编码,它仅仅对 10 个数字、26 个大小写英文字母以及一些特殊字符进行了编码。ASCII 码做多只能表示 256 个符号,每个字符只需要占用 1 个字节。 随着信息技术的发展,各国的文字都需要进行编码,于是相继出现了 GBK 、GB2312 、UTF-8 编码等,其中 GBK 和 GB2312 是我国制定的中文编码标准,规定英文字符母占用 1 个字节,中文字符占用 2 个字节;而 UTF-8 是国际通过的编码格式,它包含了全世界所有国家需要用到的字符,其规定英文字符占用 1 个字节,中文字符占用 3 个字节。
Python 3.x 默认采用 UTF-8 编码格式,有效地解决了中文乱码的问题。
在 Python 中,有 2 种常用的字符串类型,分别为 str 和 bytes 类型,其中 str 用来表示 Unicode 字符,bytes 用来表示二进制数据。str 类型和 bytes 类型之间就需要使用 encode() 和 decode() 方法进行转换。
1.Python encode()方法
encode() 方法为字符串类型(str )提供的方法,用于将 str 类型转换成 bytes 类型,这个过程也称为“编码”。
encode() 方法的语法格式如下:
str.encode([encoding="utf-8"][,errors="strict"]) 注意:格式中用 [] 括起来的参数为可选参数,也就是说,在使用此方法时,可以使用 [] 中的参数,也可以不使用。
该方法各个参数的含义如表 1 所示。 表 1 encode()参数及含义:
参数 | 含义 | str | 表示要进行转换的字符串。 | encoding = "utf-8" | 指定进行编码时采用的字符编码,该选项默认采用 utf-8 编码。例如,如果想使用简体中文,可以设置 gb2312。 当方法中只使用这一个参数时,可以省略前边的“encoding=”,直接写编码格式,例如 str.encode("UTF-8")。 | errors = "strict" | 指定错误处理方式,其可选择值可以是: - strict:遇到非法字符就抛出异常。
- ignore:忽略非法字符。
- replace:用“?”替换非法字符。
- xmlcharrefreplace:使用 xml 的字符引用。
该参数的默认值为 strict。 | 注意:使用 encode() 方法对原字符串进行编码,不会直接修改原字符串,如果想修改原字符串,需要重新赋值。
【例 1】将 str 类型字符串“C语言中文网”转换成 bytes 类型。
>>> str = "C语言中文网">>> str.encode()b'C/xe8/xaf/xad/xe8/xa8/x80/xe4/xb8/xad/xe6/x96/x87/xe7/xbd/x91' 此方式默认采用 UTF-8 编码,也可以手动指定其它编码格式,例如:
>>> str = "C语言中文网">>> str.encode('GBK')b'C/xd3/xef/xd1/xd4/xd6/xd0/xce/xc4/xcd/xf8'
2.Python decode()方法
和 encode() 方法正好相反,decode() 方法用于将 bytes 类型的二进制数据转换为 str 类型,这个过程也称为“解码”。 decode() 方法的语法格式如下:
bytes.decode([encoding="utf-8"][,errors="strict"]) 该方法中各参数的含义如表 2 所示。 表 2 decode()参数及含义:
参数 | 含义 | bytes | 表示要进行转换的二进制数据。 | encoding="utf-8" | 指定解码时采用的字符编码,默认采用 utf-8 格式。当方法中只使用这一个参数时,可以省略“encoding=”,直接写编码方式即可。 注意,对 bytes 类型数据解码,要选择和当初编码时一样的格式。 | errors = "strict" | 指定错误处理方式,其可选择值可以是: - strict:遇到非法字符就抛出异常。
- ignore:忽略非法字符。
- replace:用“?”替换非法字符。
- xmlcharrefreplace:使用 xml 的字符引用。
该参数的默认值为 strict。 | 【例 2】
>>> str = "C语言中文网">>> bytes=str.encode()>>> bytes.decode()'C语言中文网' 注意:如果编码时采用的不是默认的 UTF-8 编码,则解码时要选择和编码时一样的格式,否则会抛出异常,例如:
>>> str = "C语言中文网">>> bytes = str.encode("GBK")>>> bytes.decode() #默认使用 UTF-8 编码,会抛出以下异常Traceback (most recent call last): File "<pyshell#10>", line 1, in <module> bytes.decode()UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 1: invalid continuation byte>>> bytes.decode("GBK")'C语言中文网' 到此这篇关于Python字符串编码转换 encode() 和decode() 方法详细说明的文章就介绍到这了,更多相关Python encode()和decode()方法内容请搜索51zixue.net以前的文章或继续浏览下面的相关文章希望大家以后多多支持51zixue.net! 如何提取Playwright录制文件中的元素定位信息 Playwright元素截图并保存至allure的实现示例 |