海量数据处理的算法 海量数据处理
海量数据处理(海量数据处理的算法)
主要讲述一下Bloom Filter算法
Bloom Filter(BF)是一种空间效率很高的随机数据结构 , 它利用位数组很简洁地表示一个集合 , 并能判断一个元素是否属于这个集合 。它是一个判断元素是否存在集合的快速的概率算法 。Bloom Filter有可能会出现错误判断 , 但不会漏掉判断 。也就是BloomFilter判断元素不再集合 , 那肯定不在 。如果判断元素存在集合中 , 有一定的概率判断错误 。因此 , BloomFilter不适合那些“零错误”的应用场合 。
而在能容忍低错误率的应用场合下 , BloomFilter比其他常见的算法(如hash , 折半查找)极大节省了空间 。
BloomFilter的详细介绍:海量数据处理之Bloom Filter详解
【适用范围】
【海量数据处理的算法 海量数据处理】可以用来实现数据字典 , 进行数据的判重 , 或者集合求交集
【基本原理及要点】
原理要点:一是位数组 , 而是k个独立hash函数 。
1)位数组:
假设BloomFilter使用一个m比特的数组来保存信息 , 初始状态时 , Bloom Filter是一个包含m位的位数组 , 每一位都置为0 , 即BF整个数组的元素都设置为0 。
文章插图
2)k个独立hash函数
为了表达S={x1, x2,…,xn}这样一个n个元素的集合 , BloomFilter使用k个相互独立的哈希函数(Hash Function) , 它们分别将集合中的每个元素映射到{1,…,m}的范围中 。
当我们往Bloom Filter中增加任意一个元素x时候 , 我们使用k个哈希函数得到k个哈希值 , 然后将数组中对应的比特位设置为1 。即第i个哈希函数映射的位置hashi(x)就会被置为1(1≤i≤k) 。注意 , 如果一个位置多次被置为1 , 那么只有第一次会起作用 , 后面几次将没有任何效果 。在下图中 , k=3 , 且有两个哈希函数选中同一个位置(从左边数第五位 , 即第二个“1“处) 。
文章插图
3)判断元素是否存在集合
在判断y是否属于这个集合时 , 我们只需要对y使用k个哈希函数得到k个哈希值 , 如果所有hashi(y)的位置都是1(1≤i≤k) , 即k个位置都被设置为1了 , 那么我们就认为y是集合中的元素 , 否则就认为y不是集合中的元素 。下图中y1就不是集合中的元素(因为y1有一处指向了“0”位) 。y2或者属于这个集合 , 或者刚好是一个false positive 。
文章插图
显然这 个判断并不保证查找的结果是100%正确的 。
BloomFilter的缺点:
1)Bloom Filter无法从Bloom Filter集合中删除一个元素 。因为该元素对应的位会牵动到其他的元素 。所以一个简单的改进就是 counting Bloom filter , 用一个counter数组代替位数组 , 就可以支持删除了 。此外 , BloomFilter的hash函数选择会影响算法的效果 。
2)还有一个比较重要的问题 , 如何根据输入元素个数n , 确定位数组m的大小及hash函数个数 , 即hash函数选择会影响算法的效果 。当hash函数个数k=(ln2)*(m/n)时错误率最小 。在错误率不大于E的情况 下 , m至少要等于n*lg(1/E) 才能表示任意n个元素的集合 。但m还应该更大些 , 因为还要保证bit数组里至少一半为0 , 则m应 该>=nlg(1/E)*lge , 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数) 。
举个例子我们假设错误率为0.01 , 则此时m应大概是n的13倍 。这样k大概是8个 。
注意:
这里m与n的单位不同 , m是bit为单位 , 而n则是以元素个数为单位(准确的说是不同元素的个数) 。通常单个元素的长度都是有很多bit的 。所以使用bloom filter内存上通常都是节省的 。
一般BF可以与一些key-value的数据库一起使用 , 来加快查询 。由于BF所用的空间非常小 , 所有BF可以常驻内存 。这样子的话 , 对于大部分不存在的元素 , 我们只需要访问内存中的BF就可以判断出来了 , 只有一小部分 , 我们需要访问在硬盘上的key-value数据库 。从而大大地提高了效率 。
【扩展】
Bloom filter将集合中的元素映射到位数组中 , 用k(k为哈希函数个数)个映射位是否全1表示元素在不在这个集合中 。Counting bloom filter(CBF)将位数组中的每一位扩展为一个counter , 从而支持了元素的删除操作 。Spectral Bloom Filter(SBF)将其与集合元素的出现次数关联 。SBF采用counter中的最小值来近似表示元素的出现频率 。
【问题实例】
给你A,B两个文件 , 各存放50亿条URL , 每条URL占用64字节 , 内存限制是4G , 让你找出A,B文件共同的URL 。如果是三个乃至n个文件呢?
根据这个问题我们来计算下内存的占用 , 4G=2^32大概是40亿*8大概是340亿bit , n=50亿 , 如果按出错率0.01算需要的大概是650亿个bit 。现在可用的是340亿 , 相差并不多 , 这样可能会使出错率上升些 。另外如果这些urlip是一一对应的 , 就可以转换成ip , 则大大简单了 。
关于实现部分的代码后续会分享 , 近期会继续研究这部分算法 , 敬请期待 , 我的小伙伴们!!!
推荐阅读
- 女人为什么会肤色暗黄?导致女人肤色暗黄的原因
- 太阳色口红是什么颜色?太阳色口红推荐
- 喜欢一个人的感觉:真的爱了那种感觉是很奇妙的
- 女生最喜欢什么类型的男生:街头小姐姐们这样说
- 女人喝红酒的八大好处
- 女生喝红酒的时间
- 有图 一定要娶胖一点的女人:微胖女人更有女人味
- 每天喝红酒的量
- 情商低的人特征盘点:情商低该怎么办的4个方法
- 女人看清楚你身边的他:远离直男癌更怕直男癌父母