给定N个集合,从中找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。此外,假如,N个集合中只有少数几对集合相似,绝大多数集合都不相似,该方法在两两比较过程中“浪费了计算时间”。所以,如果能找到一种算法,将大体上相似的集合聚到一起,缩小比对的范围,这样只用检测较少的集合对,就可以找到绝大多数相似的集合对,大幅度减少时间
转载
2023-12-06 17:29:18
125阅读
文章目录一、原生python实现二、第三方库datasketch使用1. 官方示例2. LSH算法3. MinHashLSHForest 局部敏感性哈希是指:相似的哈希具有相似的原始序列 整体思路:首先将数据装在不同的桶里(通过桶之间的Jaccard系数计算原始数据hash)得到hash生成的规则用这个规则来转换新的数据将新数据生成的hash与原有的所有hash进行比较,选择最相似的注:最后比
转载
2024-07-06 09:47:04
44阅读