big_list = list('big data')
for one in all_data:
    time_a = time.time()
    if one not in set(big_list) :
    	print('the time is', time.time()-time_a)

结果发现每个if判断的时间为0.03s, 如果for循环数据很大的话,将很浪费时间,1000次,30s。

开始思考,python的查找逻辑,在一个集合中查找一个数,应该是一条一条的匹配验证。
如果想要快速查找,应该将集合转化为列表,并进行排序,才能快速查找。

然后便开始研究pythonin的查找逻辑是怎样的。

然后发现setdict是哈希查找,速度很快的。
哈希查找

自己之前开发没有深入理解呢。知其然不知其所以然。

那为什么慢呢?
突然想到,将列表变为集合是耗时间的吧,因此单独测试了将列表转为集合的时间,发现为0.03s,然后发现问题,不能在iffor循环)判断中进行set操作,太重复了,浪费时间。

以上。