python字符串split Python字符串的方法

转载

mob64ca1403c772 2023-11-18 20:29:51

文章标签 python字符串split python 开发语言后端字符串 文章分类 Python 后端开发

文章目录

Python字符串拼接（包含字符串拼接数字）

Python字符串和数字的拼接

str() 和 repr() 的区别

Python截取字符串（字符串切片）方法详解

获取单个字符
获取多个字符（字符串截去/字符串切片）

Python len()函数详解：获取字符串长度或字节数
Python split()方法详解：分割字符串
Python join()方法：合并字符串
Python count()方法：统计字符串出现的次数
Python find()方法：检测字符串中是否包含某子串
Python index()方法：检测字符串中是否包含某子串
Python字符串大小写转换（3种）函数及用法

Python title()方法
Python lower()方法
Python upper()方法

Python去除字符串中空格（删除指定字符）的3种方法

Python strip()方法
Python lstrip()方法
Python rstrip()方法

Python format()格式化输出方法详解
Python encode()和decode()方法：字符串编码转换

Python encode()方法
Python decode()方法

Python dir()和help()帮助函数

在了解字符串的基本使用之后，本章将介绍 Python 字符串类型常用的几个方法。

在 Python 开发过程中，经常需要对字符串进行一些特殊处理，比如拼接字符串、截取字符串、格式化字符串等，这些操作无需开发者自己设计实现，只需调用相应的字符串方法即可。

注意，本章所讲的字符串方法，和内置函数（如 len() ）不同，它们是字符串类型（str）所特有的，因此这些字符串方法的调用方式也比较特殊。

Python字符串拼接（包含字符串拼接数字）

在 Python 中拼接（连接）字符串很简单，可以直接将两个字符串紧挨着写在一起，具体格式为：

strname = “str1” “str2”

strname 表示拼接以后的字符串变量名，str1 和 str2 是要拼接的字符串内容。使用这种写法，Python 会自动将两个字符串拼接在一起。

【示例】以连续书写的形式拼接字符串：

str1 = "Python教程" "http://c.biancheng.net/python/"
print(str1)
str2 = "Java" "Python" "C++" "PHP"
print(str2)

运行结果：

Python教程http://c.biancheng.net/python/
JavaPythonC++PHP

需要注意的是，这种写法只能拼接字符串常量。

如果需要使用变量，就得借助+运算符来拼接，具体格式为：

strname = str1 + str2

当然，+运算符也能拼接字符串常量。

【示例】使用+运算符拼接字符串：

name = "C++教程"
url = "http://c.biancheng.net/cplus/"
info = name + "的网址是：" + url
print(info)

运行结果：

C++教程的网址是：http://c.biancheng.net/cplus/

Python字符串和数字的拼接

在很多应用场景中，我们需要将字符串和数字拼接在一起，而 Python 不允许直接拼接数字和字符串，所以我们必须先将数字转换成字符串。可以借助 str() 和 repr() 函数将数字转换为字符串，它们的使用格式为：

str(obj)
repr(obj)

obj 表示要转换的对象，它可以是数字、列表、元组、字典等多种类型的数据。

请看下面的代码：

name = "C语言中文网"
age = 8
course = 30
info = name + "已经" + str(age) + "岁了，共发布了" + repr(course) + "套教程。"
print(info)

运行结果：

C语言中文网已经8岁了，共发布了30套教程。

str() 和 repr() 的区别

str() 和 repr() 函数虽然都可以将数字转换成字符串，但它们之间是有区别的：

str() 用于将数据转换成适合人类阅读的字符串形式。
repr() 用于将数据转换成适合解释器阅读的字符串形式（Python 表达式的形式），适合在开发和调试阶段使用；如果没有等价的语法，则会发生 SyntaxError 异常。

请看下面的例子：

s = "http://c.biancheng.net/shell/"
s_str = str(s)
s_repr = repr(s)
print( type(s_str) )
print (s_str)
print( type(s_repr) )
print (s_repr)

运行结果：

<class ‘str’>
http://c.biancheng.net/shell/ <class ‘str’>
‘http://c.biancheng.net/shell/’

本例中，s 本身就是一个字符串，但是我们依然使用 str() 和 repr() 对它进行了转换。从运行结果可以看出，str() 保留了字符串最原始的样子，而 repr() 使用引号将字符串包围起来，这就是 Python 字符串的表达式形式。

另外，在 Python 交互式编程环境中输入一个表达式（变量、加减乘除、逻辑运算等）时，Python 会自动使用 repr() 函数处理该表达式。

Python截取字符串（字符串切片）方法详解

从本质上讲，字符串是由多个字符构成的，字符之间是有顺序的，这个顺序号就称为索引（index）。Python 允许通过索引来操作字符串中的单个或者多个字符，比如获取指定索引处的字符，返回指定字符的索引值等。

获取单个字符

知道字符串名字以后，在方括号[ ]中使用索引即可访问对应的字符，具体的语法格式为：

strname[index]

strname 表示字符串名字，index 表示索引值。

Python 允许从字符串的两端使用索引：

当以字符串的左端（字符串的开头）为起点时，索引是从 0 开始计数的；字符串的第一个字符的索引为 0，第二个字符的索引为 1，第三个字符串的索引为 2 ……
当以字符串的右端（字符串的末尾）为起点时，索引是从 -1 开始计数的；字符串的倒数第一个字符的索引为 -1，倒数第二个字符的索引为 -2，倒数第三个字符的索引为 -3 ……

请看下面的实例演示：

url = 'http://c.biancheng.net/python/'
#获取索引为10的字符
print(url[10])
#获取索引为 6 的字符
print(url[-6])

运行结果：

i
y

获取多个字符（字符串截去/字符串切片）

使用[ ]除了可以获取单个字符外，还可以指定一个范围来获取多个字符，也就是一个子串或者片段，具体格式为：

strname[start : end : step]

对各个部分的说明：

strname：要截取的字符串；
start：表示要截取的第一个字符所在的索引（截取时包含该字符）。如果不指定，默认为 0，也就是从字符串的开头截取；
end：表示要截取的最后一个字符所在的索引（截取时不包含该字符）。如果不指定，默认为字符串的长度；
step：指的是从 start 索引处的字符开始，每 step 个距离获取一个字符，直至 end 索引出的字符。step 默认值为 1，当省略该值时，最后一个冒号也可以省略。

【实例1】基本用法：

url = 'http://c.biancheng.net/java/'
#获取索引从3处22（不包含22）的子串
print(url[7: 22]) # 输出 zy
#获取索引从7处到-6的子串
print(url[7: -6]) # 输出 zyit.org is very
#获取索引从-7到6的子串
print(url[-21: -6])
#从索引3开始，每隔4个字符取出一个字符，直到索引22为止
print(url[3: 22: 4])

运行结果：

c.biancheng.net
c.biancheng.net
c.biancheng.net
pcaen

【实例2】高级用法，start、end、step 三个参数都可以省略：

url = 'http://c.biancheng.net/java/'
#获取从索引5开始，直到末尾的子串
print(url[7: ])
#获取从索引-21开始，直到末尾的子串
print(url[-21: ])
#从开头截取字符串，直到索引22为止
print(url[: 22])
#每隔3个字符取出一个字符
print(url[:: 3])

运行结果：

c.biancheng.net/java/
c.biancheng.net/java/
http://c.biancheng.net hp/bne.ta/

Python len()函数详解：获取字符串长度或字节数

Python 中，要想知道一个字符串有多少个字符（获得字符串长度），或者一个字符串占用多少个字节，可以使用 len 函数。

len 函数的基本语法格式为：

len（string）

其中 string 用于指定要进行长度统计的字符串。

例如，定义一个字符串，内容为“http://c.biancheng.net”，然后用 len() 函数计算该字符串的长度，执行代码如下：

>>> a=‘http://c.biancheng.net’
>>> len(a)
22

在实际开发中，除了常常要获取字符串的长度外，有时还要获取字符串的字节数。

在 Python 中，不同的字符所占的字节数不同，数字、英文字母、小数点、下划线以及空格，各占一个字节，而一个汉字可能占 2~4 个字节，具体占多少个，取决于采用的编码方式。例如，汉字在 GBK/GB2312 编码中占用 2 个字节，而在 UTF-8 编码中一般占用 3 个字节。

以 UTF-8 编码为例，字符串“人生苦短，我用Python”所占用的字节数如图 1 所示。

python字符串split Python字符串的方法_后端

图 1 汉字和英文所占字节数

我们可以通过使用 encode() 方法，将字符串进行编码后再获取它的字节数。例如，采用 UTF-8 编码方式，计算“人生苦短，我用Python”的字节数，可以执行如下代码：

>>> str1 = “人生苦短，我用Python”
>>> len(str1.encode())
27

因为汉字加中文标点符号共 7 个，占 21 个字节，而英文字母和英文的标点符号占 6 个字节，一共占用 27 个字节。

同理，如果要获取采用 GBK 编码的字符串的长度，可以执行如下代码：

>>> str1 = “人生苦短，我用Python”
>>> len(str1.encode(‘gbk’))
20

Python split()方法详解：分割字符串

Python 中，除了可以使用一些内建函数获取字符串的相关信息外（例如 len() 函数获取字符串长度），字符串类型本身也拥有一些方法供我们使用。

注意，这里所说的方法，指的是字符串类型 str 本身所提供的，由于涉及到类和对象的知识，初学者不必深究，只需要知道方法的具体用法即可。

从本节开始，将给大家介绍一些常用的字符串类型方法，本节先介绍分割字符串的 split() 方法。

split() 方法可以实现将一个字符串按照指定的分隔符切分成多个子串，这些子串会被保存到列表中（不包含分隔符），作为方法的返回值反馈回来。该方法的基本语法格式如下：

str.split(sep,maxsplit)

此方法中各部分参数的含义分别是：

str：表示要进行分割的字符串；
sep：用于指定分隔符，可以包含多个字符。此参数默认为 None，表示所有空字符，包括空格、换行符“\n”、制表符“\t”等。
maxsplit：可选参数，用于指定分割的次数，最后列表中子串的个数最多为 maxsplit+1。如果不指定或者指定为 -1，则表示分割次数没有限制。

在 split 方法中，如果不指定 sep 参数，那么也不能指定 maxsplit 参数。

同内建函数（如 len）的使用方式不同，字符串变量所拥有的方法，只能采用“字符串.方法名()”的方式调用。这里不用纠结为什么，学完类和对象之后，自然会明白。

例如，定义一个保存 C语言中文网网址的字符串，然后用 split() 方法根据不同的分隔符进行分隔，执行过程如下：

>>> str = “C语言中文网 >>> c.biancheng.net”
>>> str
‘C语言中文网 >>> c.biancheng.net’
>>> list1 = str.split() #采用默认分隔符进行分割
>>> list1
[‘C语言中文网’, ‘>>>’, ‘c.biancheng.net’]
>>> list2 = str.split(’>>>’) #采用多个字符进行分割
>>> list2
[‘C语言中文网 ‘, ’ c.biancheng.net’]
>>> list3 = str.split(’.’) #采用 . 号进行分割
>>> list3
[‘C语言中文网 >>> c’, ‘biancheng’, ‘net’]
>>> list4 = str.split(’ ‘,4) #采用空格进行分割，并规定最多只能分割成 4 个子串
>>> list4
[‘C语言中文网’, ‘>>>’, ‘c.biancheng.net’]
>>> list5 = str.split(’>’) #采用 > 字符进行分割
>>> list5
['C语言中文网 ‘, ‘’, ‘’, ’ c.biancheng.net’]
>>>

需要注意的是，在未指定 sep 参数时，split() 方法默认采用空字符进行分割，但当字符串中有连续的空格或其他空字符时，都会被视为一个分隔符对字符串进行分割，例如：

>>> str = “C语言中文网 >>> c.biancheng.net” #包含 3 个连续的空格
>>> list6 = str.split()
>>> list6
[‘C语言中文网’, ‘>>>’, ‘c.biancheng.net’]
>>>

Python join()方法：合并字符串

join() 方法也是非常重要的字符串方法，它是 split() 方法的逆方法，用来将列表（或元组）中包含的多个字符串连接成一个字符串。

想详细了解 split() 方法的读者，可阅读《Python split()方法》一节。

使用 join() 方法合并字符串时，它会将列表（或元组）中多个字符串采用固定的分隔符连接在一起。例如，字符串“c.biancheng.net”就可以看做是通过分隔符“.”将 [‘c’,‘biancheng’,‘net’] 列表合并为一个字符串的结果。

join() 方法的语法格式如下：

newstr = str.join(iterable)

此方法中各参数的含义如下：

newstr：表示合并后生成的新字符串；
str：用于指定合并时的分隔符；
iterable：做合并操作的源字符串数据，允许以列表、元组等形式提供。

【例 1】将列表中的字符串合并成一个字符串。

>>> list = [‘c’,‘biancheng’,‘net’]
>>> ‘.’.join(list)
‘c.biancheng.net’

【例 2】将元组中的字符串合并成一个字符串。

>>> dir = ‘’,‘usr’,‘bin’,‘env’
>>> type(dir)
<class ‘tuple’>
>>> ‘/’.join(dir)
‘/usr/bin/env’

Python count()方法：统计字符串出现的次数

count 方法用于检索指定字符串在另一字符串中出现的次数，如果检索的字符串不存在，则返回 0，否则返回出现的次数。

count 方法的语法格式如下：

str.count(sub[,start[,end]])

此方法中，各参数的具体含义如下：

str：表示原字符串；
sub：表示要检索的字符串；
start：指定检索的起始位置，也就是从什么位置开始检测。如果不指定，默认从头开始检索；
end：指定检索的终止位置，如果不指定，则表示一直检索到结尾。

【例 1】检索字符串“c.biancheng.net”中“.”出现的次数。

>>> str = “c.biancheng.net”
>>> str.count(’.’)
2

【例 2】

>>> str = “c.biancheng.net”
>>> str.count(’.’,1)
2
>>> str.count(’.’,2)
1

前面讲过，字符串中各字符对应的检索值，从 0 开始，因此，本例中检索值 1 对应的是第 2 个字符‘.’，从输出结果可以分析出，从指定索引位置开始检索，其中也包含此索引位置。

【例 3】

>>> str = “c.biancheng.net”
>>> str.count(’.’,2,-3)
1
>>> str.count(’.’,2,-4)
0

Python find()方法：检测字符串中是否包含某子串

find() 方法用于检索字符串中是否包含目标字符串，如果包含，则返回第一次出现该字符串的索引；反之，则返回 -1。

find() 方法的语法格式如下：

str.find(sub[,start[,end]])

此格式中各参数的含义如下：

str：表示原字符串；
sub：表示要检索的目标字符串；
start：表示开始检索的起始位置。如果不指定，则默认从头开始检索；
end：表示结束检索的结束位置。如果不指定，则默认一直检索到结尾。

【例 1】用 find() 方法检索 “c.biancheng.net” 中首次出现 “.” 的位置索引。

>>> str = “c.biancheng.net”
>>> str.find(’.’)
1

【例 2】手动指定起始索引的位置。

>>> str = “c.biancheng.net”
>>> str.find(’.’,2)
11

【例 3】手动指定起始索引和结束索引的位置。

>>> str = “c.biancheng.net”
>>> str.find(’.’,2,-4)
-1

位于索引（2，-4）之间的字符串为“biancheng”，由于其不包含“.”，因此 find() 方法的返回值为 -1。

注意，Python 还提供了 rfind() 方法，与 find() 方法最大的不同在于，rfind() 是从字符串右边开始检索。例如：

>>> str = “c.biancheng.net”
>>> str.rfind(’.’)
11

Python index()方法：检测字符串中是否包含某子串

同 find() 方法类似，index() 方法也可以用于检索是否包含指定的字符串，不同之处在于，当指定的字符串不存在时，index() 方法会抛出异常。

index() 方法的语法格式如下：

str.index(sub[,start[,end]])

此格式中各参数的含义分别是：

str：表示原字符串；
sub：表示要检索的子字符串；
start：表示检索开始的起始位置，如果不指定，默认从头开始检索；
end：表示检索的结束位置，如果不指定，默认一直检索到结尾。

【例 1】用 index() 方法检索“c.biancheng.net”中首次出现“.”的位置索引。

>>> str = “c.biancheng.net”
>>> str.index(’.’)
1

【例 2】当检索失败时，index()会抛出异常。

>>> str = “c.biancheng.net”
>>> str.index(‘z’)
Traceback (most recent call last):
File “<pyshell#49>”, line 1, in
str.index(‘z’)
ValueError: substring not found

同 find() 和 rfind() 一样，字符串变量还具有 rindex() 方法，其作用和 index() 方法类似，不同之处在于它是从右边开始检索，例如：

>>> str = “c.biancheng.net”
>>> str.rindex(’.’)
11

Python字符串大小写转换（3种）函数及用法

Python 中，为了方便对字符串中的字母进行大小写转换，字符串变量提供了 3 种方法，分别是 title()、lower() 和 upper()。

Python title()方法

title() 方法用于将字符串中每个单词的首字母转为大写，其他字母全部转为小写，转换完成后，此方法会返回转换得到的字符串。如果字符串中没有需要被转换的字符，此方法会将字符串原封不动地返回。

title() 方法的语法格式如下：

str.title()

其中，str 表示要进行转换的字符串。

【例 1】

>>> str = “c.biancheng.net”
>>> str.title()
‘C.Biancheng.Net’
>>> str = “I LIKE C”
>>> str.title()
‘I Like C’

Python lower()方法

lower() 方法用于将字符串中的所有大写字母转换为小写字母，转换完成后，该方法会返回新得到的字符串。如果字符串中原本就都是小写字母，则该方法会返回原字符串。

lower() 方法的语法格式如下：

str.lower()

其中，str 表示要进行转换的字符串。

【例 2】

>>> str = “I LIKE C”
>>> str.lower()
‘i like c’

Python upper()方法

upper() 的功能和 lower() 方法恰好相反，它用于将字符串中的所有小写字母转换为大写字母，和以上两种方法的返回方式相同，即如果转换成功，则返回新字符串；反之，则返回原字符串。

upper() 方法的语法格式如下：

str.upper()

其中，str 表示要进行转换的字符串。

【例 3】

>>> str = “i like C”
>>> str.upper()
‘I LIKE C’

需要注意的是，以上 3 个方法都仅限于将转换后的新字符串返回，而不会修改原字符串。

Python去除字符串中空格（删除指定字符）的3种方法

用户输入数据时，很有可能会无意中输入多余的空格，或者在一些场景中，字符串前后不允许出现空格和特殊字符，此时就需要去除字符串中的空格和特殊字符。

这里的特殊字符，指的是制表符（\t）、回车符（\r）、换行符（\n）等。

Python 中，字符串变量提供了 3 种方法来删除字符串中多余的空格和特殊字符，它们分别是：

strip()：删除字符串前后（左右两侧）的空格或特殊字符。
lstrip()：删除字符串前面（左边）的空格或特殊字符。
rstrip()：删除字符串后面（右边）的空格或特殊字符。

注意，Python 的 str 是不可变的（不可变的意思是指，字符串一旦形成，它所包含的字符序列就不能发生任何改变），因此这三个方法只是返回字符串前面或后面空白被删除之后的副本，并不会改变字符串本身。

Python strip()方法

strip() 方法用于删除字符串左右两个的空格和特殊字符，该方法的语法格式为：

str.strip([chars])

其中，str 表示原字符串，[chars] 用来指定要删除的字符，可以同时指定多个，如果不手动指定，则默认会删除空格以及制表符、回车符、换行符等特殊字符。

【例 1】

>>> str = " c.biancheng.net \t\n\r"
 >>> str.strip()
 ‘c.biancheng.net’
 >>> str.strip(" ,\r")
 ‘c.biancheng.net \t\n’
 >>> str
 ’ c.biancheng.net \t\n\r’

分析运行结果不难看出，通过 strip() 确实能够删除字符串左右两侧的空格和特殊字符，但并没有真正改变字符串本身。

Python lstrip()方法

lstrip() 方法用于去掉字符串左侧的空格和特殊字符。该方法的语法格式如下：

str.lstrip([chars])

其中，str 和 chars 参数的含义，分别同 strip() 语法格式中的 str 和 chars 完全相同。

【例 2】

>>> str = " c.biancheng.net \t\n\r"
 >>> str.lstrip()
 ‘c.biancheng.net \t\n\r’

Python rstrip()方法

rstrip() 方法用于删除字符串右侧的空格和特殊字符，其语法格式为：

str.rstrip([chars])

str 和 chars 参数的含义和前面 2 种方法语法格式中的参数完全相同。

【例 3】

>>> str = " c.biancheng.net \t\n\r"
>>> str.rstrip()
’ c.biancheng.net’

Python format()格式化输出方法详解

前面章节介绍了如何使用 % 操作符对各种类型的数据进行格式化输出，这是早期 Python 提供的方法。自 Python 2.6 版本开始，字符串类型（str）提供了 format() 方法对字符串进行格式化，本节就来学习此方法。

format() 方法的语法格式如下：

str.format(args)

此方法中，str 用于指定字符串的显示样式；args 用于指定要进行格式转换的项，如果有多项，之间有逗号进行分割。

学习 format() 方法的难点，在于搞清楚 str 显示样式的书写格式。在创建显示样式模板时，需要使用{}和：来指定占位符，其完整的语法格式为：

{ [index][ : [ [fill] align] [sign] [#] [width] [.precision] [type] ] }

注意，格式中用 [] 括起来的参数都是可选参数，即可以使用，也可以不使用。各个参数的含义如下：

index：指定：后边设置的格式要作用到 args 中第几个数据，数据的索引值从 0 开始。如果省略此选项，则会根据 args 中数据的先后顺序自动分配。
fill：指定空白处填充的字符。注意，当填充字符为逗号(,)且作用于整数或浮点数时，该整数（或浮点数）会以逗号分隔的形式输出，例如（1000000会输出 1,000,000）。
align：指定数据的对齐方式，具体的对齐方式如表 1 所示。

align	含义
<	数据左对齐。
>	数据右对齐。
=	数据右对齐，同时将符号放置在填充内容的最左侧，该选项只对数字类型有效。
^	数据居中，此选项需和 width 参数一起使用。

sign：指定有无符号数，此参数的值以及对应的含义如表 2 所示。

sign参数	含义
+	正数前加正号，负数前加负号。
-	正数前不加正号，负数前加负号。
空格	正数前加空格，负数前加负号。
#	对于二进制数、八进制数和十六进制数，使用此参数，各进制数前会分别显示 0b、0o、0x前缀；反之则不显示前缀。

width：指定输出数据时所占的宽度。
.precision：指定保留的小数位数。
type：指定输出数据的具体类型，如表 3 所示。

type类型值	含义
s	对字符串类型格式化。
d	十进制整数。
c	将十进制整数自动转换成对应的 Unicode 字符。
e 或者 E	转换成科学计数法后，再格式化输出。
g 或 G	自动在 e 和 f（或 E 和 F）中切换。
b	将十进制数自动转换成二进制表示，再格式化输出。
o	将十进制数自动转换成八进制表示，再格式化输出。
x 或者 X	将十进制数自动转换成十六进制表示，再格式化输出。
f 或者 F	转换为浮点数（默认小数点后保留 6 位），再格式化输出。
%	显示百分比（默认显示小数点后 6 位）。

【例 1】

str="网站名称：{:>9s}\t网址：{:s}"
print(str.format("C语言中文网","c.biancheng.net"))

输出结果为：

Traceback (most recent call last):
File “C:\Users\mengma\Desktop\1.py”, line 2, in
print(str.format(“C语言中文网”,“c.biancheng.net”))
ValueError: cannot switch from automatic field numbering to manual field specification

【例 2】
在实际开发中，数值类型有多种显示需求，比如货币形式、百分比形式等，使用 format() 方法可以将数值格式化为不同的形式。

#以货币形式显示
print("货币形式：{:,d}".format(1000000))
#科学计数法表示
print("科学计数法：{:E}".format(1200.12))
#以十六进制表示
print("100的十六进制：{:#x}".format(100))
#输出百分比形式
print("0.01的百分比表示：{:.0%}".format(0.01))

输出结果为：

货币形式：1,000,000
科学计数法：1.200120E+03
100的十六进制：0x64
0.01的百分比表示：1%

Python encode()和decode()方法：字符串编码转换

前面章节在介绍 bytes 类型时，已经对 encode() 和 decode() 方法的使用做了简单的介绍，本节将对这 2 个方法做详细地说明。

我们知道，最早的字符串编码是 ASCII 编码，它仅仅对 10 个数字、26 个大小写英文字母以及一些特殊字符进行了编码。ASCII 码做多只能表示 256 个符号，每个字符只需要占用 1 个字节。

随着信息技术的发展，各国的文字都需要进行编码，于是相继出现了 GBK、GB2312、UTF-8 编码等，其中 GBK 和 GB2312 是我国制定的中文编码标准，规定英文字符母占用 1 个字节，中文字符占用 2 个字节；而 UTF-8 是国际通过的编码格式，它包含了全世界所有国家需要用到的字符，其规定英文字符占用 1 个字节，中文字符占用 3 个字节。

Python 3.x 默认采用 UTF-8 编码格式，有效地解决了中文乱码的问题。

在 Python 中，有 2 种常用的字符串类型，分别为 str 和 bytes 类型，其中 str 用来表示 Unicode 字符，bytes 用来表示二进制数据。str 类型和 bytes 类型之间就需要使用 encode() 和 decode() 方法进行转换。

Python encode()方法

encode() 方法为字符串类型（str）提供的方法，用于将 str 类型转换成 bytes 类型，这个过程也称为“编码”。

encode() 方法的语法格式如下：

str.encode([encoding=“utf-8”][,errors=“strict”])

注意，格式中用 [] 括起来的参数为可选参数，也就是说，在使用此方法时，可以使用 [] 中的参数，也可以不使用。

该方法各个参数的含义如表 1 所示。

参数	含义
str	表示要进行转换的字符串。
encoding = “utf-8”	指定进行编码时采用的字符编码，该选项默认采用 utf-8 编码。例如，如果想使用简体中文，可以设置 gb2312。当方法中只使用这一个参数时，可以省略前边的“encoding=”，直接写编码格式，例如 str.encode(“UTF-8”)。
errors = “strict”	指定错误处理方式，其可选择值可以是：strict：遇到非法字符就抛出异常。ignore：忽略非法字符。replace：用“？”替换非法字符。xmlcharrefreplace：使用 xml 的字符引用。该参数的默认值为 strict。

注意，使用 encode() 方法对原字符串进行编码，不会直接修改原字符串，如果想修改原字符串，需要重新赋值。

【例 1】将 str 类型字符串“C语言中文网”转换成 bytes 类型。

>>> str = “C语言中文网”
>>> str.encode()
b’C\xe8\xaf\xad\xe8\xa8\x80\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91’

此方式默认采用 UTF-8 编码，也可以手动指定其它编码格式，例如：

>>> str = “C语言中文网”
>>> str.encode(‘GBK’)
b’C\xd3\xef\xd1\xd4\xd6\xd0\xce\xc4\xcd\xf8’

Python decode()方法

和 encode() 方法正好相反，decode() 方法用于将 bytes 类型的二进制数据转换为 str 类型，这个过程也称为“解码”。

decode() 方法的语法格式如下：

bytes.decode([encoding=“utf-8”][,errors=“strict”])

该方法中各参数的含义如表 2 所示。

参数	含义
bytes	表示要进行转换的二进制数据。
encoding=“utf-8”	指定解码时采用的字符编码，默认采用 utf-8 格式。当方法中只使用这一个参数时，可以省略“encoding=”，直接写编码方式即可。注意，对 bytes 类型数据解码，要选择和当初编码时一样的格式。
errors = “strict”	指定错误处理方式，其可选择值可以是：strict：遇到非法字符就抛出异常。ignore：忽略非法字符。replace：用“？”替换非法字符。xmlcharrefreplace：使用 xml 的字符引用。该参数的默认值为 strict。

【例 2】

>>> str = “C语言中文网”
>>> bytes=str.encode()
>>> bytes.decode()
‘C语言中文网’

注意，如果编码时采用的不是默认的 UTF-8 编码，则解码时要选择和编码时一样的格式，否则会抛出异常，例如：

>>> str = “C语言中文网”
>>> bytes = str.encode(“GBK”)
>>> bytes.decode() #默认使用 UTF-8 编码，会抛出以下异常
Traceback (most recent call last):
File “<pyshell#10>”, line 1, in
bytes.decode()
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd3 in position 1: invalid continuation byte
>>> bytes.decode(“GBK”)
‘C语言中文网’

Python dir()和help()帮助函数

前面我们已经学习了很多字符串提供的方法，包括 split()、join()、find()、index() 等，但这远远不是它的全部方法。由于篇幅有限，本章只能给大家列举一些最常用的方法，至于其他的方法，读者可通过本节介绍的 dir() 和 help() 函数自行查看。

Python dir() 函数用来列出某个类或者某个模块中的全部内容，包括变量、方法、函数和类等，它的用法为：

dir(obj)

obj 表示要查看的对象。obj 可以不写，此时 dir() 会列出当前范围内的变量、方法和定义的类型。

Python help() 函数用来查看某个函数或者模块的帮助文档，它的用法为：

help(obj)

obj 表示要查看的对象。obj 可以不写，此时 help() 会进入帮助子程序。

掌握了以上两个函数，我们就可以自行查阅 Python 中所有方法、函数、变量、类的用法和功能了。

【实例】使用 dir() 查看字符串类型（str）支持的所有方法：

>>> dir(str)
[‘add’, ‘class’, ‘contains’, ‘delattr’, ‘dir’, ‘doc’, ‘eq’, ‘format’, ‘ge’, ‘getattribute’, ‘getitem’, ‘getnewargs’, ‘gt’, ‘hash’, ‘init’, ‘init_subclass’, ‘iter’, ‘le’, ‘len’, ‘lt’, ‘mod’, ‘mul’, ‘ne’, ‘new’, ‘reduce’, ‘reduce_ex’, ‘repr’, ‘rmod’, ‘rmul’, ‘setattr’, ‘sizeof’, ‘str’, ‘subclasshook’, ‘capitalize’, ‘casefold’, ‘center’, ‘count’, ‘encode’, ‘endswith’, ‘expandtabs’, ‘find’, ‘format’, ‘format_map’, ‘index’, ‘isalnum’, ‘isalpha’, ‘isascii’, ‘isdecimal’, ‘isdigit’, ‘isidentifier’, ‘islower’, ‘isnumeric’, ‘isprintable’, ‘isspace’, ‘istitle’, ‘isupper’, ‘join’, ‘ljust’, ‘lower’, ‘lstrip’, ‘maketrans’, ‘partition’, ‘replace’, ‘rfind’, ‘rindex’, ‘rjust’, ‘rpartition’, ‘rsplit’, ‘rstrip’, ‘split’, ‘splitlines’, ‘startswith’, ‘strip’, ‘swapcase’, ‘title’, ‘translate’, ‘upper’, ‘zfill’]

在 Python 标准库中，以__开头和结尾的方法都是私有的，不能在类的外部调用。

【实例】使用 help() 查看 str 类型中 lower() 函数的用法：

>>> help(str.lower)
Help on method_descriptor:

lower(self, /)
Return a copy of the string converted to lowercase.

可以看到，lower() 函数用来将字符串中的字母转换为小写形式，并返回一个新的字符串。

注意，使用 help() 查看某个函数的用法时，函数名后边不能带括号，例如将上面的命令写作help(str.lower())就是错误的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android rgb颜色选择器安卓rgb

下一篇：container开机自启动 docker 开机启动docker的命令是什么

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯