bitmap和布隆过滤器简单总结 - 代码天地

bitmap和布隆过滤器简单总结

其他 2020-02-25 10:34:01 阅读次数: 0

一、BitMap

解决的问题：大数据量下的排序、查找、去重。

1、关键

通过 bit位表示一个数值的状态（是否存在），那么1MB能大约表示 800万数值（1,000,000B * 8 bit ）

2、局限性：

1、内存限制：10位的数值（即99亿），占用 1.25GB内存
2、一般应用在数值类型。字符串映射到 BitMap 存在Hash碰撞的问题（引入bloom filter）
3、不适合数据稀疏。比如要存入(10,10000,100000000)这三个数据（引入 Roaring BitMap）

3、应用场景

对不重复的密集整数进行排序
查找数据是否存在海量集合中
找出没有重复的数据（两个bit位标识一个数值的状态）

二、Bloom Filter

解决的问题： 判断一个元素是否属于这个集合

1、关键

内存占用极少，不局限于数值类型。

2、局限性

存在错误率。

PS.
哈希函数个数 k、位数组大小 m、输入key的数量 n
对于给定的m、n，当 k = ln(2)* m/n 时出错的概率是最小

3、应用场景

MapReduce：BloomFilter 简介及在 Hadoop reduce side join 中的应用
HBase 提高随机读的性能
查找key（不局限于数值）是否存在海量集合中。
- 是否爬虫爬过
- 是否黑名单

三、基数计算

hyperloglog，落地场景：kylin & spark 对于 count distinct 操作

阿武z

发布了53 篇原创文章 · 获赞 50 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/xw514124202/article/details/104327948

bitmap和布隆过滤器简单总结

bitmap 和布隆过滤器

BitMap 、布隆过滤器

关于bitmap，布隆过滤器

布隆过滤器大量数据去重：Bitmap和布隆过滤器(Bloom Filter)

简单介绍布隆过滤器

简单实用的布隆过滤器

布隆过滤器总结

布隆过滤器详细总结

位图和布隆过滤器

python和布隆过滤器

bitmap去重与布隆过滤器

Redis7高级之简单实现布隆过滤器BloomFilter + bitmap（七）

大量数据去重：Bitmap和布隆过滤器(Bloom Filter)

大数据去重问题：Bitmap和布隆过滤器(Bloom Filter)

大量数据去重：Bitmap和布隆过滤器(Bloom Filter)。

大量数据去重：Bitmap位图算法和布隆过滤器(Bloom Filter)

使用BitMap和布隆过滤器处理海量数据

布隆过滤器

布隆过滤器　

布隆过滤器（Bloom Filter）的简单实现

【C++】位图的简单实现与布隆过滤器

哈希扩展--位图和布隆过滤器

布隆过滤器原理和比特币应用

布隆过滤器和Hyperloglog基数统计的介绍

以太坊：事件、日志和布隆过滤器

布隆过滤器(Bloom Filter)的原理和实现

bit-map和布隆过滤器

Redis 布隆过滤器的原理和实践

哈希的应用--位图和布隆过滤器

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)