看到下面这个代码,不知道这个是什么意思:

data=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]


def createVocabList(dataSet):  #创建词库 这里就是直接把所有词去重后,当作词库
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)  #set 丨 set 是什么意思
    return list(vocabSet)

createVocabList(data)

 

一、首先了解一下什么是集合

集合(set)是一个无序的不重复元素序列

可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合必须用{ },因为 { } 是用来创建一个空字典

#格式如下
parame = {value01,value02,...}

#或者
set(value)

 

二、集合之前的运算

#set()之后都没有重复值
a = set('abracadabra')   #{'a', 'b', 'c', 'd', 'r'}
b = set('alacazam')  #{'a', 'c', 'l', 'm', 'z'}

#a-b集合a中包含而集合b中不包含的元素
a-b  # {'b', 'd', 'r'}

# |或的意思,并集的意思,集合a或b中包含的所有元素
a|b  #{'a', 'b', 'c', 'd', 'l', 'm', 'r', 'z'}

# &且,交集,集合a和b中都包含了的元素
a&b  #{'a', 'c'}

# ^,不同时包含于a和b的元素 ,a有b没有,或者b有a没有
a^b  #{'b', 'd', 'l', 'm', 'r', 'z'}

 

 

三、集合的基本操作

1.添加元素

1.1 s.add(x) 将一个元素 x 添加到集合 s 中,如果元素已存在,则不进行任何操作,参数不能是list

thisset = set(("Google", "Runoob", "Taobao"))
thisset.add("Facebook")

#{'Taobao', 'Facebook', 'Google', 'Runoob'}

1.2 s.update(x) :可以添加多个元素,且参数可以是list ,  tuple ,  dict 等

thisset = set(("Google", "Runoob", "Taobao"))
thisset.update({1,3})  #{1, 3, 'Google', 'Taobao', 'Runoob'}

thisset.update([1,4],[5,6])  
#{1, 3, 4, 5, 6, 'Google', 'Taobao', 'Runoob'}

二者的区别

thisset = set(("Google", "Runoob", "Taobao"))
thisset.update("Facebook")

#{'F', 'Google', 'Runoob', 'Taobao', 'a', 'b', 'c', 'e', 'k', 'o'}

 

2.移除元素

1 s.remove( x )  将元素 x 从集合 s 中移除,如果元素不存在,则会发生错误。
2 s.discard( x )  是移除集合中的元素,且如果元素不存在,不会发生错误
3 s.pop()  设置随机删除集合中的一个元素

例子:

#处理pop 有结果返回,其他的都没有结果返回

thisset = set(("Google", "Runoob", "Taobao"))
thisset.remove("Taobao")
print(thisset)  #{'Google', 'Runoob'}
thisset.remove("Facebook")   # 不存在会发生错误


thisset = set(("Google", "Runoob", "Taobao"))
thisset.discard("Facebook")  # 不存在不会发生错误

thisset = set(("Google", "Runoob", "Taobao", "Facebook"))
thisset.pop()  #'Google'

 

3.计算集合元素的个数

thisset = set(("Google", "Runoob", "Taobao"))
len(thisset)   # 3

 

4.清空集合

thisset = set(("Google", "Runoob", "Taobao"))
thisset.clear()
print(thisset)
#set()

 

5.判断元素在集合中是否存在

#x in s ,判断元素 x 是否在集合 s 中,存在返回 True,不存在返回 False。
thisset = set(("Google", "Runoob", "Taobao"))
 "Runoob" in thisset  #True
"Facebook" in thisset  #False

 

附录是集合的完整内置方法

方法

描述

add()

为集合添加元素

clear()

移除集合中的所有元素

copy()

拷贝一个集合

difference()

返回多个集合的差集

difference_update()

移除集合中的元素,该元素在指定的集合也存在。

discard()

删除集合中指定的元素

intersection()

返回集合的交集

intersection_update()

返回集合的交集。

isdisjoint()

判断两个集合是否包含相同的元素,如果没有返回 True,否则返回 False。

issubset()

判断指定集合是否为该方法参数集合的子集。

issuperset()

判断该方法的参数集合是否为指定集合的子集

pop()

随机移除元素

remove()

移除指定元素

symmetric_difference()

返回两个集合中不重复的元素集合。

symmetric_difference_update()

移除当前集合中在另外一个指定集合相同的元素,并将另外一个指定集合中不同的元素插入到当前集合中。

union()

返回两个集合的并集

update()

给集合添加元素