一、集合类型及操作

1、集合类型定义

-集合类型与数学中的集合概念一致
-集合元素之间无序,每个元素唯一,不存在相同元素
-集合元素不可更改,不能是可变数据类型

-集合用大括号{}表示,元素用逗号分隔
-建立集合类型用{}或set()
-建立空集合类型,必须使用set()

举例

A = {"python",123,("python",123)}
print(A)
B = set("pypy123")#使用set()建立  元素唯一  无序
print(B)

输出

{'python', 123, ('python', 123)}
{'3', 'y', '2', 'p', '1'}

2、集合间操作

1)集合操作符

操作符及应用

描述

S|T

返回一个新的集合,包括在集合S和T中的所有元素

S-T

返回一个新的集合,包括在集合S但不在T中的元素

S&T

返回一个新的集合,包括同时在集合S和T中的元素

S^T

返回一个新的集合,包括在集合S和T中的非相同元素

S<=T或 S < T

返回True/False,判断S和T的子集关系

S>=T或 S > T

返回True/False,判断S和T的包含关系

2)4个增强操作符: S|=T S-=T S&=T S^=T

举例

A = {"p","y",123}
B = set("pypy123")
print(A - B)

输出

{123}

3、集合处理方法

操作函数或方法

描述

S.add(X)

如果x不在集合S中,将x增加到S

S.discard()

移除S中元素x,如果x不在集合S中,不报错

S.remove()

移除S中元素x,如果x不在集合S中,产生KeyError异常

S.clear()

移除S中所有元素

S.pop()

随机返回S的一个元素,更新s,若S为空,产生KeyError异常

S.copy()

返回集合S的一个副本

len(S)

返回集合S的元素个数

x in S

返回True\False

x not in S

返回True\False

set(x)

将其它类型变量转化为集合类型

4、集合的应用场景

-包含关系比较
-数据去重

数据去重举例

ls =["p","p","y","y",123]
s = set(ls)  #去重
lt = list(s)
print(lt)

输出

['y', 123, 'p']

二、序列类型及操作

1、序列类型的定义

-序列是一维元素向量,元素类型可以不同
-类似数学元素蓄力
-元素间由序号引导,通过下标访问序列的特定元素
-序列类型是一个基类类型
    -字符串类型
    -元组类型
    -列表类型

2、序列类型通用操作符

操作符及应用

描述

x in s

如果x是序列S的元素,返回True,否则返回False

x not in s

同上类似

S + T

连接两个序列S和T

Sn 或 nS

将序列S复制n次

S[i]

索引,返回S中的第i个元素,i是序列的序号

S[i:j]或S[i:j:k]

切片,返回序列S中第i到j以k为步长的元素序列

3、序列类型通用函数和方法

函数和方法

描述

len(S)

返回序列S的长度

min(S)或max(S)

返回序列S的最小或最大元素,需要S中元素可比较

S.index(x)或S.index(x,i,j)

返回序列S从i开始到j位置中第一次出现元素x的位置

S.count(x)

返回序列S中x出现的总次数

4、元组类型定义

-元组是一种序列,一旦创建就不能修改
-使用小括号()或tuple()创建,元素间用逗号分隔
-可以使用或不使用小括号

例如

#返回元组的情况
def func():
    return 1,2

5、列表类型定义

-列表是一种序列类型,创建后可以随意被修改
-使用方括号[]或list()创建,元素用逗号分隔
-列表中各元素类型可以不同,无长度限定
-使用[]或list()才是真正的创建了列表,如果仅仅只是使用赋值只是将一个列表付给了新的名字

例表类型操作函数和方法:

函数或方法

描述

ls[i] = x

替换列表ls第i元素为x

ls[i:j:k] = lt

用列表lt替换ls切片后对应的元素子列表

del ls[i]

删除列表ls中第i元素

del ls[i:j:k]

删除列表中第i到第j以k为步长的元素

ls += lt

更新列表ls,将列表lt元素增加到列表ls中

ls *= n

更新列表ls,其元素重复n次

ls.append(x)

在列表ls最后增加一个元素x

ls.clear()

删除列表中所有元素

ls.copy()

生成一个新的列表,赋值ls中所有元素

ls.insert(i,x)

在列表ls的第i位置增加X

ls.pop(i)

在列表ls中第i个位置元素取出并删除该元素

ls.remove(x)

将列表ls中出现的第一个元素x删除

sorted(ls)

对列表ls元素进行排序

les.sort(cmp=None, key=None, reverse=False)

cmp – 可选参数, 如果指定了该参数会使用该参数的方法进行排序;key – 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序;reverse – 排序规则,reverse = True 降序, reverse = False 升序(默认)

5、列表功能举例

1、定义空列表lt
lt = []

2、向lt新增5个元素
lt += [1,2,3,4,5]

3、修改lt中的第2个元素
lt[2] = 6

4、向lt中第2个位置增加一个元素
lt.insert(2,7)

5、从lt中第1个位置删除一个元素
del lt[1]

6、删除lt中1-3位置元素
del lt[1:4]

7、判断lt中是否包含数字0
0 in lt

8、向lt新增数字0
lt.append(0)

9、返回数字0所咋lt中的索引
lt.index(0)

10、lt的长度
len(lt)

11、lt中最大元素
max(lt)

12、清空lt
lt.clear()

6、序列类型应用场景

-元组用于元素不改变的应用场景,更多用于固定搭配
-列表更加灵活,它是最常用的序列类型
-最主要作用:表示一组有序数据,进而操作它们。元素遍历

三、字典类型

1、字典类型定义

-映射是一种建(索引)和值(数据)的对应
-键值对:建是数据索引的扩展
-字典是键值对的集合,键值之间是无序的
-采用大括号{}和dict()创建,键值对用冒号:表示
-字典的一个元素是一对键值对

2、字典类型操作函数和方法

函数或方法

描述

del d[k]

删除字典的中键k对应的数据值

k in d

判断键k是否在字典d中,如果在返回True,否则False

d.keys()

返回字典d中所有的键的信息

d.value()

返回字典d中所有的值的信息

d.items()

返回字典d中所有的键值对信息

d.get(k,)

键k存在,则返回相应值,不在则返回default值

d.pop(k,)

键k存在,则取出相应值,不在则返回default值

d.popitem()

随机从字典d中取出一个键值对,以元组形式返回

d.clear()

删除所有键值对

len(d)

返回字典d中元素的个数

四、jieba库的使用

1、jieba库的概述

-jieba是优秀的中文分词第三方库,需要pip安装
-中文文本需要通过分词获取单个的词语
-jieba库提供三种分词模式,最简单只需掌握一个函数
-jiba分词依靠中文词库
    -利用一个中文词库,确定汉字之间的关联概率
    -汉字键概率大的组成词库,形成分词效果
    -除了分词,用户还可以添加自定义的词组

2、jieba库使用说明

-精确模式:把文本精确的切分开,不存在冗余单词
-全模式:把文本中所有可能的词语°扫描出来,有冗余
-收索引擎模式:在精确模式基础上,对长词再次切分

jieba库常用函数

函数

描述

jieba.lcut(S)

精确模式,返回一个列表的分词结果。举例 jieba.lcut(“中国是一个伟大的国际”);输出:[‘中国’, ‘是’, ‘一个’, ‘伟大’, ‘国家’]

jieba.lcut(s,cut_all=True)

全模式,返回一个列表类型的分词结果,存在冗余。举例:ieba.lcut(“中国是一个伟大国家”,cut_all = True) ;输出:[‘中国’, ‘国是’, ‘一个’, ‘伟大’, ‘大国’, ‘国家’]

jieba.lcut_for_search(S)

收索引擎模式,返回一个列表类型的分词结果,存在冗余。举例:jieba.lcut_for_search(“中华人民共和国万岁”) ;输出:[‘中华’, ‘华人’, ‘人民’, ‘共和’, ‘共和国’, ‘中华人民共和国’, ‘万岁’]

jieba.add_word(w)

向分词词典增加新词w