上回说到,Python 中有四种内建的数据结构 —— 列表、元组、字典和集合,是数据分析的重要基础,这回就来学习一下这几种数据结构。此篇内容较多,亦显枯燥,贵在坚持。

序列

首先来讲讲序列,序列分为可变序列list,不可变序列tuple(元祖)、str。序列有一些通用的操作

注: 以下讲的是序列的通用操作,使用于list、tulpe、str,代码以列表举例。

1、判断一个值是否属于序列
lst = [1,2,3,4,5,6]
a,b = 4,12
# a 在 lst 序列中 , x in y--如果 x 在 y 序列中返回 True。
print(a in lst)
# b 不在 lst 序列中 , x not in y--如果 x 不在 y 序列中返回 True。
print(b not in lst)
# 这也是上节说到的成员运算符 in、 not in

| 输出:True True

2、序列拼接与重复操作
lst1 = [7,8,9]
lst2 = ['a','b','c']
print(lst1+lst2)      # "+":序列的拼接
print(lst1*2,lst2*3)  # "*":序列重复

| 输出:[7, 8, 9, ‘a’, ‘b’, ‘c’]
    [7, 8, 9, 7, 8, 9] [‘a’, ‘b’, ‘c’, ‘a’, ‘b’, ‘c’, ‘a’, ‘b’, ‘c’]

3、通过下标索引序列中的值
lst = [9,8,7,6,5,4,3,2,1,0]
print(lst[0],lst[5],lst[9])  # 索引从0开始,索引最大值是:序列长度-1。如:lst[2]中,下标索引是2,指向lst的第3个值;序列有10个值,最大索引是9
print(lst[-1])               # 索引-1代表最后一个值

| 输出:9 4 0     0

4、切片,序列的切片也是后续数据分析的重点
lst = [0,1,2,3,4,5,6,7,8,9]
print(lst[4:8])  # 切片可以理解成序列的值区间,且是一个左闭右开区间,这里lst[4:8]代表的区间是:索引4的值 - 索引7的值
print(lst[:3])   # 左边无索引,代表从索引0开始
print(lst[3:])   # 右边无索引,代表以最后一个值结束
print(lst[4:-1]) # 索引4的值 -- 倒数第二个值 (注意:切片是右开区间,所以是索引-2的值)

| 输出:[4, 5, 6, 7]
    [0, 1, 2]
    [3, 4, 5, 6, 7, 8, 9]
    [4, 5, 6, 7, 8]

5、步长
lst = [0,1,2,3,4,5,6,7,8,9]
print(lst[0:7:2])  # List[i:j:n]代表:索引i -- 索引j,以n为步长
print(lst[::3])    # 按照3为步长,从第一个值开始截取lst数据
print(lst[1::5])   # 按照5为步长,从第二个值开始截取lst数据

| 输出:[0, 2, 4, 6]
    [0, 3, 6, 9]
    [1, 6]

6、序列的基本内置全局函数及方法

全局函数:len,max,min,sum;方法:lst.index(obj),lst.count(obj)

lst1 = [0,1,2,3,4,5,6,7,8,9]
print(len(lst))                    # 列表元素个数
print(max(lst),min(lst),sum(lst))  # 返回列表的最大值、最小值、求和,这三个函数都只针对数字的list
lst = [1,1,2,8,8,8,8,5,6,3,3]
print(lst.index(3))                # .index(obj)方法:从列表中找出某个值第一个匹配项的索引位置
print(lst.count(8))                # .count(obj)方法:计算值的出现次数

| 输出:10
    9 0 45
    9
    4

列表

列表(list) 是处理一组有序项目的数据结构,它支持字符,数字,字符串甚至可以包含列表(即嵌套)。序列的通用操作适用于列表。

列表生成器 range()
# range()是生成器,指向了一个范围
# range(5)代表指向了0,1,2,3,4这几个值
print(range(5),type(range(5)))
lst = list(range(5))
print(lst)
# range(2,5)代表指向了2,3,4这几个值,注意这里不是使用:
print(list(range(2,5)))
# range(0,10,2)代表指向了0,2,4,6,8这几个值,最后的2代表步长
print(list(range(0,10,2)))

| 输出:range(0, 5) <class ‘range’>
    [0, 1, 2, 3, 4]
    [2, 3, 4]
    [0, 2, 4, 6, 8]

列表的常用操作:添加,插入,删除,排序

(1)添加元素

#生成列表
lst = list(range(8))
# list.append() 添加元素
lst.append('python')
print(lst)
lst.append(['h','e','l'])
print(lst)
lst.extend(['h','e','l']) # 添加多个元素 .extend()
print(lst)
# 注意extend()方法和append()方法的区别,append方法是嵌套

| 输出:[0, 1, 2, 3, 4, 5, 6, 7, ‘python’]
    [0, 1, 2, 3, 4, 5, 6, 7, ‘python’, [‘h’, ‘e’, ‘l’]]
    [0, 1, 2, 3, 4, 5, 6, 7, ‘python’, [‘h’, ‘e’, ‘l’], ‘h’, ‘e’, ‘l’]

(2)删除元素

lst = ['lily','Jack','kyle','lily','lucy','lilei','wangwu']
lst.remove('lily') # remove方法:移除列表中某个值的第一个匹配项
print(lst)
del lst[1:3]       # del语句:删除list的相应索引值(左闭右开),如索引1-2的值删除
print(lst)
lst.clear()
print(lst)         # 移除所有值

| 输出:[‘Jack’, ‘kyle’, ‘lily’, ‘lucy’, ‘lilei’, ‘wangwu’]
    [‘Jack’, ‘lucy’, ‘lilei’, ‘wangwu’]
    []

(3)插入元素

lst = list(range(8))
lst.insert(5,'a')     # x.insert(i,m)方法:在索引i处插入m,这里索引5代表第6个值
print(lst)
lst.insert(6,[1,2,3]) # 插入一个列表元素
print(lst)

| 输出:[0, 1, 2, 3, 4, ‘a’, 5, 6, 7]
    [0, 1, 2, 3, 4, ‘a’, [1, 2, 3], 5, 6, 7]

(4)复制

# lst,lst1指向同一个列表
lst = list(range(10))
lst1 = lst
lst1[2] = 'hello'
print(lst,lst1)

# list.copy()方法:复制一个新的列表,lst,lst2指向两个列表
lst = list(range(10))
lst2 = lst.copy()
lst2[2] = 'hello'
print(lst,lst2)

| 输出:[0, 1, ‘hello’, 3, 4, 5, 6, 7, 8, 9] [0, 1, ‘hello’, 3, 4, 5, 6, 7, 8, 9]
    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] [0, 1, ‘hello’, 3, 4, 5, 6, 7, 8, 9]

(5)排序:方法sort(),函数sorted

# 默认升序排序/字母顺序
lst1 = [1,34,20,45,67,12,90,46]
lst2 = ["der", "sds", "acx"]
lst1.sort()
lst2.sort()
print(lst1,lst2)
# 参数reverse:反向排序
lst1.sort(reverse=True)
lst2.sort(reverse=True)
print(lst1,lst2)
# 函数sorted():排序并复制
lst3 = sorted(lst1)
lst3.append('python')
print(lst1,lst3)

| 输出:[1, 12, 20, 34, 45, 46, 67, 90] [‘acx’, ‘der’, ‘sds’]
    [90, 67, 46, 45, 34, 20, 12, 1] [‘sds’, ‘der’, ‘acx’]
    [90, 67, 46, 45, 34, 20, 12, 1] [1, 12, 20, 34, 45, 46, 67, 90, ‘python’]

元祖(tuple)

元祖 通过圆括号中用逗号分割的项目,定义实际上是不可变的“列表”

tupl1 = ('kyle', 'lily', 1997, 2000);
tupl2 = (6,3,4,5,6 );
tupl3 = "x", "y", "z", "s"  # 可以不加括号
tupl4 = (62,)               # 元组中只包含一个元素时,需要在元素后面添加逗号
print(tupl1[3],tupl3[:4])     # 索引、切片和list一样
del tupl3                    # 元祖不能单独删除内部元素(不可变性),但可以del语句来删除整个元祖
# tuple()函数:将列表转换为元组
lst = list(range(8))
tupl5 = tuple(lst)
print(tupl5)

| 输出:2000 (‘x’, ‘y’, ‘z’, ‘s’)
    (0, 1, 2, 3, 4, 5, 6, 7)

文本序列str

字符串是 Python 中最常用的数据类型,前一回已经介绍过一些,这里在介绍些常用的功能
(1)修改字符串–替换

# str.replace(old_str,new_str,count):修改字符串,count:更换几个
st1 = "I'm kyle!"
st2 = st1.replace('kyle','lilei')
print(st1)
print(st2)
st1 = 'hahaha'
st2 = st1.replace('ha','he',2)
print(st2)

| 输出:I’m kyle!
    I’m lilei!
    heheha

(2)拆分字符串和连接字符串

# str.split(obj):拆分字符串,生成列表
st = "dog,20,cat,23.56"
lst = st.split(',')
print(lst)

# str.join():连接字符串,对象为序列
lst = ['dog', '20', 'cat','23.56']
tupl = ('dog', '20', 'cat','23.56')
m = '_'
st = m.join(lst)
st2 = m.join(tupl)
print(st,st2)

| 输出:[‘dog’, ‘20’, ‘cat’, ‘23.56’]
    dog_20_cat_23.56   dog_20_cat_23.56

(3)startswith 和 endswith

# str.startswith(“str”)  判断是否以“str”开头;str.endswith (“str”)  判断是否以“str”结尾
st1 = 'azxhtyfg'
print(st1.startswith('a'), st1.endswith('f'))

|输出:True False

(4)字母大小写转换

st = 'i am Kyle'
print(st.upper())       # 全部大写
print(st.lower())       # 全部小写
print(st.swapcase())    # 大小写互换
print(st.capitalize())  # 首字母大写

| 输出:I AM KYLE
    i am kyle
    I AM kYLE
    I am kyle

(5)判断字符串是否全数字或字母

st = '8965324'
print(st.isnumeric())  # 如果 str 只包含数字则返回 True,否则返回 False.

st = 'dEdfgr'
print(st.isalpha())   # 如果 str 至少有一个字符并且所有字符都是字母则返回 True,否则返回 False

st = 'avd   '
print(st.rstrip())   # 删除字符末尾的空格
print(st.lstrip())   # 删除字符左边的空格
print(st.strip())    # 删除字符首位的空格

| 输出:True
    True
    avd

(6)字符串的格式化

# 输出2位小数:%.2f,此处是四舍五入!
m = 3.1415926 
print("pi is %f"  %m)
print("pi is %.2f" %m)

# 区别:%i 不四舍五入,直接切掉小数部分
m = 10.6
print("pi is %i"  %m)
print("pi is %.0f" %m)

| 输出:pi is 3.141593
    pi is 3.14
    pi is 10
    pi is 11

m = 100 
print("need money %+i"  % m)
print("have money %.2f"  % -m)
# 显示正号,负号根据数字直接显示

| 输出:need money +100
    have money -100.00

# 加空格,空格和符号只能显示一个
m = 100 
print("have money % i"  %m)
print("have money % +i"  %m)
print("have money % .2f"  %-1000)

| 输出:have money 100
    have money +100
    have money -1000.00

# 科学计数法 %e  %E
m = 123.456789654 
print("have money %.2e"  %m)
print("have money %.4E"  %m)

| 输出:have money 1.23e+02
    have money 1.2346E+02

# 小数位数少的时候自动识别用浮点数,数据复杂的时候自动识别用科学计数法
m1 = 12123123.1231231231231
m2 = 1.6
print("have money %g"  %m1)
print("have money %g"  %m2)

| 输出:have money 1.21231e+07
    have money 1.6

这节主要讲了序列(列表、元祖、字符串)的一些特性和常用的操作。内容比较多,能坚持看完也实属不易。技术本身是枯燥的,特别的基础知识更甚,但是还是的反复的敲,反复的练。基础扎实了,后面的数据分析方能运用自如,信手捏来。此篇代码较多,难免有疏忽遗漏之处,若影响了阅读体验,还望海涵。