目录
- 1. 一个超级大文件,每行一个url,求每一个url出现的次数
- 1.1 如果是小文件
- 1.2 如果是超级大文件
- 2. 两个超级大文件,每行一个url,求两个文件中相同的url
- 2.1 如果是两个小文件
- 2.2 如果是两个超级大文件
- 3. 一个超级大文件,每行一个url,快速查询出给定的url是否在这个大文件中
- 3.1 如果是小文件
- 3.2如果是超级大文件
1. 一个超级大文件,每行一个url,求每一个url出现的次数
1.1 如果是小文件
- 创建一个读取文件的流
- 创建一个存放url的容器Map
key:url
value:出现的次数 - 读取url到Map集合中
判断map中是否存在该url:
不存在
map.put(url,1)
存在
map.put(url,map.get(url)+1)
最后这个map中就是每一个url对应出现的次数
1.2 如果是超级大文件
考虑容器map、array、list、set ,这些都是在JVM的内存的,然后就OOM了
那怎么办呢,分布式的思想,分而治之
- 将超级大文件切分为多个小文件
- 对每个小文件分别计算url出现的次数
- 汇总所有小文件的结果
其实就是体现了hdfs+mapreduce思想
2. 两个超级大文件,每行一个url,求两个文件中相同的url
2.1 如果是两个小文件
- 创建两个读文件的流
- 创建两个放URL的容器Set
- 遍历某个set,判断是否在别一set中(set.contains())
2.2 如果是两个超级大文件
分而治之+分区
- 将两个大文件分别切分成小文件
两个大文件切分需要满足一定的规则
url.hashCode%分区数量
分区数量可以相同或成位数关系 - 将两个大文件分成的小文件进行关联对比分析
这就体现了mapreduce+hive的思想
3. 一个超级大文件,每行一个url,快速查询出给定的url是否在这个大文件中
这个题目的重点是快速查询
3.1 如果是小文件
- 创建一个读文件的流
- 创建一个放url的容器set
- 判断set中是否存在set.contains
3.2如果是超级大文件
考虑容器:
- 数组:数组索引 基于下标查询 快
- list
arraylist 查询快
linkedlist 增删快
所以我们将url存储在数组的下边中,将url取hash当作下标(url.hashCode),然后该下标的数组值为1是存在,0为不存在。
bit[]
但是数组的缺点:1)长度不好确定2)散列造成空间的浪费
快速查询体现了hbase的思想
关于误判率
布隆过滤器主要用于判断一个元素是否存在于某个集合。得益于其简单的原理和极高的空间效率,被广泛用于海量数据处理,比如Web爬虫、垃圾邮件过滤、拼写检测等。
布隆过滤器误判指某个元素并不存在于集合中,却判定为存在于集合中。意即某元素经过k个哈希运算所得的索引都为1。本质是哈希碰撞。
假设:
数组长度为m
哈希函数个数为k
共有数据条数为n
则误判率=
n已确定,通过公式找到一个合适的m和k,使误判率足够低,满足预期。
布隆过滤器参考:https://www.douban.com/note/342448148/https://blog.csdn.net/u012400327/article/details/62222922