数据结构:数据结构是以某种方式(如通过编号)组合起来的数据元素(如数、字符乃至其他数据结构)集合。
序列: 在 Python 中,最基本的数据结构为 序列 ( sequence)。 序列中的每个元素都有编号,即其位置或索引,其中第一个元素的索引为 0,第二个元素的索引 为 1 ,依此类推。在有些编程语言中,从 1 开始给序列中的元素编号,但从 0 开始指出相对于序列
开头的偏移量。(包括列表、元组和字符串)
序列概述
列表和元组的主要不同在于,列表是可以修改的,而元组不可以。这意味着列表适用于需要中途添加元素的情形,而元组适用于出于某种考虑需要禁止修改序列的情形。
序列还可包含其他序列
#序列里面可以包含其他序列(如使用序列来表示人,其中第一个元素为姓名,而第二个元素为年龄。)
>>> edward = ['Edward Gumby', 42]
>>> john = ['John Smith', 50]
>>> database = [edward, john]
>>> database
[['Edward Gumby', 42], ['John Smith', 50]]
Python 支持一种数据结构的基本概念,名为 容器 (container)。容器基本上就是可包含其他对象的对象。两种主要的容器是序列(如列表和元组)和映射(如字典)。在序列中, 每个元素都有编号,而在映射中,每个元素都有名称(也叫键)。
通用的序列操作
有几种操作适用于所有序列,包括 索引、切片、相加、相乘和成员资格 检查。另外,Python 还提供了一些内置函数,可用于确定序列的长度以及找出序列中最大和最小的元素。
索引
序列中的所有元素都有编号——从 0 开始递增。
#索引
#字符串就是由字符组成的序列。索引0指向第一个元素,这里为字母H。不同于其他一些语言,Python没有专门用于表示字符的类型,因此一个字符就是只包含一个元素的字符串。
>>> greeting = 'Hello'
>>> greeting[0]
'H'
#使用负数索引时,Python将从右(即从最后一个元素)开始往左数
>>> greeting[-1]
'o'
#对于字符串字面量(以及其他的序列字面量),可直接对其执行索引操作,无需先将其赋给变量。这与先赋给变量再对变量执行索引操作的效果是一样的。
>>> 'Hello'[1]
'e'
#如果函数调用返回一个序列,可直接对其执行索引操作。例如,如果你只想获取用户输入的年份的第4位,可像下面这样做:
>>> fourth = input('Year: ')[3]
Year: 2005
>>> fourth
'5'
索引例子:要求你输入年、月(数1~12)、日(数1~31),再使用相应的 月份名等将日期打印出来。
# 将以数指定年、月、日的日期打印出来
>>>months = [
'January',
'February',
'March',
'April',
'May',
'June',
'July',
'August',
'September',
'October',
'November',
'December'
]
# 一个列表,其中包含数1~31对应的结尾
>>>endings = ['st', 'nd', 'rd'] + 17 * ['th'] \ + ['st', 'nd', 'rd'] + 7 * ['th'] \
+ ['st']
>>>year = input('Year: ')
>>>month = input('Month (1-12): ')
>>>day = input('Day (1-31): ')
>>>month_number = int(month)
>>>day_number = int(day)
# 别忘了将表示月和日的数减1,这样才能得到正确的索引
>>>month_name = months[month_number-1]
>>>ordinal = day + endings[day_number-1]
>>>print(month_name + ' ' + ordinal + ', ' + year)
#这个程序的运行情况类似于下面这样:
>>>Year: 1974
>>>Month (1-12): 8
>>>Day (1-31): 16
August 16th, 1974
切片
除使用索引来访问单个元素外,还可使用 切片 ( slicing )来访问特定 范围内的元素。为此,可使用两个索引,并用冒号分隔:
#切片(访问特定范围内的元素)
>>> tag = '<a href="http://www.python.org">Python web site</a>'
>>> tag[9:30]
'http://www.python.org'
>>> tag[32:-4]
'Python web site'
#切片适用于提取序列的一部分,其中的编号非常重要:第一个索引是包含的第一个元素的编号,但第二个索引是切片后余下的第一个元素的编号。
>>> numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> numbers[3:6] [4, 5, 6]
>>> numbers[0:1] [1]
#提供两个索引来指定切片的边界,其中第一个索引指定的元素包含在切片内,但第二个索引指定的元素不包含在切片内。
>>>tag[1:4]
'a h'
#如果切片结束于序列末尾,可省略第二个索引(如果想包含最后一个元素)
>>> numbers[-3:]
[8, 9, 10]
#如果切片始于序列开头,可省略第一个索引。
>>> numbers[:3]
[1, 2, 3]
#要复制整个序列,可将两个索引都省略。
>>> numbers[:]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
切片例子:提示用户输入一个URL,并从中提取域名。(这里假定输入的 URL类似于http://www.somedomainname.com
#从类似于http://www.something.com的URL中提取域名
>>>url = input('Please enter the URL:')
>>>domain = url[11:-4]
>>>print("Domain name: " + domain)
#这个程序的运行情况类似于下面这样:
Please enter the URL: http://www.python.org
Domain name: python
切片步长更大
#切片步长为1时(可省略步长)
>>> numbers[0:10:1]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
#步长为2时,将从起点和终点之间每隔一个元素提取一个元素
>>> numbers[0:10:2]
[1, 3, 5, 7, 9]
>>>numbers[3:6:3]
[4]
#要从序列中每隔3个元素提取1个,只需提供步长4即可
>>> numbers[::4]
[1, 5, 9]
#步长不能为0,否则无法向前移动,但可以为负数,即从右向左提取元素
>>> numbers[8:3:-1]
[9, 8, 7, 6, 5]
>>> numbers[10:0:-2]
[10, 8, 6, 4, 2]
#步长为负数时,第一个索引必须比第二个索引大
>>> numbers[0:10:-2]
[]
#省略起始和结束索引时,Python竟然执行了正确的操作:步长为正数时,它从起点移到终点,而步长为负数时,它从终点移到起点。
>>> numbers[::-2]
[10, 8, 6, 4, 2]
>>> numbers[5::-2]
[6, 4, 2]
>>> numbers[:5:-2]
[10, 8]
序列相加
#用加法运算符来拼接序列
>>> [1, 2, 3] + [4, 5, 6]
[1, 2, 3, 4, 5, 6]
>>> 'Hello,' + 'world!'
'Hello, world!'
#不能拼接列表和字符串,虽然它们都是序列。一般而言,不能拼接不同类型的序列
>>> [1, 2, 3] + 'world!'
TypeError: can only concatenate list (not "string") to list
乘法
#将序列与数x相乘时,将重复这个序列x次来创建一个新序列
>>> 'python' * 5
'pythonpythonpythonpythonpython'
>>> [42] * 10
[42, 42, 42, 42, 42, 42, 42, 42, 42, 42]
#None、空列表和初始化
#空列表是使用不包含任何内容的两个方括号([])表示的
#要创建一个可包含10个元素的列表,更准确的做法是使用[0]*10,这将创建一个包含10个零的列表
#在有些情况下,你可能想使用表示“什么都没有”的值,如表示还没有在列表中添加任何内容,在这种情况下,可使用None。
>>> sequence = [None] * 10
>>> sequence
[None, None, None, None, None, None, None, None, None, None]
乘法例子:在屏幕上打印一个由字符组成的方框。这个方框位于屏幕中央,宽度取决于用户提供的句子的长度。
#在位于屏幕中央且宽度合适的方框内打印一个句子
>>>sentence = input("Sentence: ")
>>>screen_width = 80
>>>text_width = len(sentence)
#方框宽度
>>>box_width = text_width + 6
#将方框放在屏幕中央
>>>left_margin = (screen_width - box_width) // 2
>>>print()
>>>print(' ' * left_margin + '+' + '-' * (box_width-2) + '+')
>>>print(' ' * left_margin + '| ' + ' ' * text_width + ' |')
>>>print(' ' * left_margin + '| ' + sentence + ' |')
>>>print(' ' * left_margin + '| ' + ' ' * text_width + ' |')
>>>print(' ' * left_margin + '+' + '-' * (box_width-2) + '+')
>>>print()
#程序运行结果如下
Sentence: He's a very naughty boy!
Sentence: He's a very naughty boy!
+-----------------------------+
| |
| He's a very naughty boy! |
| |
+-----------------------------+
成员资格
要检查特定的值是否包含在序列中,可使用运算符in.它检查是否满足指定的条件,并返回相应的值:满足时返回True,不满足时返回False。这样的运算符称为布尔运算符,而前述真值称为布尔值。
>>> permissions = 'rw'
>>> 'w' in permissions
True
>>> 'x' in permissions
False
>>> users = ['mlh', 'foo', 'bar']
>>> input('Enter your user name: ') in users
Enter your user name: mlh
True
#检查字符串变量是否包含字符,可用于垃圾邮件过滤器中
>>> subject = '$$$ Get rich now!!! $$$'
>>> '$$$' in subject
True
成员资格例子:从用户那里获取一个用户名和一个PIN码,并检查它们组成的列表是 否包含在数据库(实际上也是一个列表)中。如果用户名-PIN码对包含在数据库中,就打印字符 串'Access granted'
# 检查用户名和PIN码
>>>database = [
['albert', '1234'],
['dilbert', '4242'],
['smith', '7524'],
['jones', '9843']
]
>>>username = input('User name: ')
>>>pin = input('PIN code: ')
>>>if [username, pin] in database: print('Access granted')
长度、最小值和最大值:内置函数len、min和max很有用,其中函数len返回序列包含的元素个数,而min和max分别返回序列中最小和最大的元素。
>>> numbers = [100, 34, 678]
>>> len(numbers)
3
>>> max(numbers)
678
>>> min(numbers)
34
>>> max(2, 3)
3
>>> min(9, 3, 2, 5)
2
列表:Python的主力
列表不同于元组和字符串的地方——列表是可变的,即可修改其内容。另外,列表有很多特有的 方法 。
函数list
#鉴于不能像修改列表那样修改字符串,因此在有些情况下使用字符串来创建列表很有帮助。为此,可使用函数list。
>>> list('Hello')
['H', 'e', 'l', 'l', 'o']
#可将任何序列(而不仅仅是字符串)作为list的参数
基本的列表操作
1.修改列表:给元素赋值
#使用索引表示法给特定位置的元素赋值
>>> x = [1, 1, 1]
>>> x[1] = 2
>>> x
[1, 2, 1]
#不能给不存在的元素赋值(如:如果列表的长度为2,就不能给索引为100的元素赋值)
2.删除元素
#从列表中删除元素也很容易,只需使用del语句即可。
>>> names = ['Alice', 'Beth', 'Cecil', 'Dee-Dee', 'Earl']
>>> del names[2]
>>> names
['Alice', 'Beth', 'Dee-Dee', 'Earl']
3.给切片赋值
>>> name = list('Perl')
>>> name
['P', 'e', 'r', 'l']
>>> name[2:] = list('ar')
>>> name
['P', 'e', 'a', 'r']
#通过使用切片赋值,可将切片替换为长度与其不同的序列
>>> name = list('Perl')
>>> name[1:] = list('ython')
>>> name
['P', 'y', 't', 'h', 'o', 'n']
#使用切片赋值还可在不替换原有元素的情况下插入新元素
>>> numbers = [1, 5]
>>> numbers[1:1] = [2, 3, 4]
>>> numbers
[1, 2, 3, 4, 5]
>>>number=[1,3,6]
>>>numver[2:2]=[4,5]
>>>number
[1,3,4,5,6]
>>> numbers
[1, 2, 3, 4, 5]
>>> numbers[1:4] = []
>>> numbers
[1, 5]
#上述代码与del numbers[1:4]等效
列表方法
方法是与对象(列表、数、字符串等)联系紧密的函数。通常,像下面这样调用方法:
object.method(arguments)
方法调用与函数调用很像,只是在方法名前加上了对象和句点。
1.append
方法append用于将一个对象附加到列表末尾
>>> lst = [1, 2, 3]
>>> lst.append(4)
>>> lst
[1, 2, 3, 4]
#append也就地修改列表。这意味着它不会返回修改后的新列表,而是直接修改旧列表
2.clear
方法clear就地清空列表的内容
>>> lst = [1, 2, 3]
>>> lst.clear()
>>> lst
[]
这类似于切片赋值语句lst[:] = []
3.copy
方法copy复制列表
#常规复制,副本操作时,源本也会被改变(a和b指向的是同一个列表)
>>> a = [1, 2, 3]
>>> b = a
>>> b[1] = 4
>>> a
[1, 4, 3]
#让a和b指向不同的列表,将b关联到a的副本
>>> a = [1, 2, 3]
>>> b = a.copy()
>>> b[1] = 4
>>> a
[1, 2, 3]
4.count
方法count计算指定的元素在列表中出现了多少次
>>> ['to', 'be', 'or', 'not', 'to', 'be'].count('to')
2
>>> x = [[1, 2], 1, 1, [2, 1, [1, 2]]]
>>> x.count(1)
2
>>> x.count([1, 2])
1
5.extend
方法extend让你能够同时将多个值附加到列表末尾,为此可将这些值组成的序列作为参数提供给方法extend(可使用一个列表来扩展另一个列表)
#类似拼接,但是又有差别
#扩展将修改被扩展的序列(这里是a)
>>> a = [1, 2, 3]
>>> b = [4, 5, 6]
>>> a.extend(b)
>>> a
[1, 2, 3, 4, 5, 6]
#常规拼接不会修改被扩展的序列
>>> a = [1, 2, 3]
>>> b = [4, 5, 6]
>>> a + b
[1, 2, 3, 4, 5, 6]
>>> a
[1, 2, 3]
6.index
方法index在列表中查找指定值在第一次出现的索引
>>> knights = ['We', 'are', 'the', 'knights', 'who', 'say', 'ni']
>>> knights.index('who')
4
#索引没有的单词时,会报错
>>> knights.index('herring')
ValueError: list.index(x): x not in list
7.insert
方法insert用于将一个对象插入列表
>>> numbers = [1, 2, 3, 5, 6, 7]
>>> numbers.insert(3, 'four')
>>> numbers
[1, 2, 3, 'four', 5, 6, 7]
8.pop
方法pop从列表中删除一个元素(末尾为最后一个元素),并返回这一元素
#使用pop可实现一种常见的数据结构——栈(stack)。栈就像一叠盘子,你可在上面添加盘子,还可从上面取走盘子。最后加入的盘子最先取走,这被为后进先出(LIFO)。
>>> x = [1, 2, 3]
>>> x.pop()
3
>>> x
[1, 2]
>>> x.pop(0)
1
>>> x
[2]
#pop是唯一既修改列表又返回一个非None值的列表方法
#Python没有提供push,但可使用append来替代。方法pop和append的效果相反,因此将刚弹出的值压入(或附加)后,得到的栈将与原来相同。
>>> x = [1, 2, 3]
>>> x.append(x.pop())
>>> x
[1, 2, 3]
#要创建先进先出(FIFO)的队列,可使用insert(0, ...)代替append。另外,也可继续使用append,但用pop(0)替代pop()。一种更佳的解决方案是,使用模块collections中的deque[???p36]
9.remove
方法remove用于删除第一个为指定值的元素
#只删除第一个指定的元素
>>> x = ['to', 'be', 'or', 'not', 'to', 'be']
>>> x.remove('be')
>>> x
['to', 'or', 'not', 'to', 'be']
#列表里没有指定的元素时,删除元素报错
>>> x.remove('bee')
ValueError: list.remove(x): x not in list
#remove是就地修改且不返回值的方法之一,它修改列表,但不返回任何值
10.reverse
方法reverse按相反的顺序排列列表中的元素
>>> x = [1, 2, 3]
>>> x.reverse()
>>> x
[3, 2, 1]
#reverse修改列表,但不返回任何值
11.sort
方法sort用于对列表就地排序。就地排序意味着对原来的列表进行修改,使其元素按顺序排列,而不是返回排序后的列表的副本。
#sort排序会对原始列表操作
>>> x = [4, 6, 2, 1, 7, 9]
>>> x.sort()
>>> x
[1, 2, 4, 6, 7, 9]
#在需要排序后的列表副本并保留原始列表不变时
#正确的方法之一是先将y关联到x的副本,再对y进行排序
>>> x = [4, 6, 2, 1, 7, 9]
>>> y = x.copy()
>>> y.sort()
>>> x
[4, 6, 2, 1, 7, 9]
>>> y
[1, 2, 4, 6, 7, 9]
#另一种方式是使用函数sorted
>>> x = [4, 6, 2, 1, 7, 9]
>>> y = sorted(x)
>>> x
[4, 6, 2, 1, 7, 9]
>>> y
[1, 2, 4, 6, 7, 9]
#实际上,这个函数可用于任何序列,但总是返回一个列表
>>> sorted('Python')
['P', 'h', 'n', 'o', 't', 'y']
#如果要将元素按相反的顺序排列,可先使用sort(或sorted),再调用方法reverse,也可使用参数reverse(???p37)
12.高级排序
【???p38】
#方法sort接受两个可选参数:key和reverse
#根据长度对元素进行排序,可将参数key设置为函数len
>>> x = ['aardvark', 'abalone', 'acme', 'add', 'aerate']
>>> x.sort(key=len)
>>> x
['add', 'acme', 'aerate', 'abalone', 'aardvark']
#关键字参数reverse,只需将其指定为一个真值(True或False),以指出是否要按相反的顺序对列表进行排序.
>>> x = [4, 6, 2, 1, 7, 9]
>>> x.sort(reverse=True)
>>> x
[9, 7, 6, 4, 2, 1]
元组:不可修改的序列
元组也是序列,不可修改(与列表区别,字符串也不可修改);
元组语法很简单,只要将一些值用逗号分隔,就能自动创建一个元组;
元组可用作映射中的键(以及集合的成员),而列表不行;
有些内置函数和方法返回元组,这意味着必须跟它们打交道。只要不尝试修改元组,与
元组“打交道”通常意味着像处理列表一样处理它们(需要使用元组没有的index和count
等方法时例外)。
#元组创建
>>> 1, 2, 3
(1, 2, 3)
#元组还可以用圆括号括起(常用做法)
>>> (1, 2, 3)
(1, 2, 3)
#空元组用两个不包含任何内容的圆括号表示。
>>> ()
()
#表示只包含一个值的元组,这有点特殊:虽然只有一个值,也必须在它后面加上逗号
>>> 42,
(42,)
>>> (42,)
(42,)
>>> 42
42
>>> 3 * (40 + 2,)
(42, 42, 42)
>>> 3 * (40 + 2)
126
#不加逗号,不是元组
#函数tuple的工作原理与list很像:它将一个序列作为参数,并将其转换为元组①。如果参数已经是元组,就原封不动地返回它
>>> tuple([1, 2, 3])
(1, 2, 3)
>>> tuple('abc')
('a', 'b', 'c')
>>> tuple((1, 2, 3))
(1, 2, 3)
#元组的创建及其元素的访问方式与其他序列相同(元组并不太复杂,而且除创建和访问其元素外,可对元组执行的操作不多)
>>> x = 1, 2, 3
>>> x[1]
2
>>> x[0:2]
(1, 2)
#元组的切片也是元组,就像列表的切片也是列表一样
常见函数
函数 | 功能 |
len(seq) | 返回序列的长度 |
list(seq) | 将序列转换为列表 |
max(args) | 返回序列或一组参数中的最大值 |
min(args) | 返回序列和一组参数中的最小值 |
reversed(seq) | 让你能够反向迭代序列 |
sorted(seq) | 返回一个有序列表,其中包含指定序列中的所有元素 |
tuple(seq) | 将序列转换为元组 |