海量数据处理基本方法:
1、Hash法
散列方法:直接寻址法、取模法、数字分析法、折叠法、平方取中法、除留余数法、随机数法
解决冲突方法:开放地址法、链地址法、再散列法、建立公共溢出区
2、Bit-map法
3、Bloom Filter法
4、数据库优化法
5、倒排索引法
6、外排序法
7、Trie树
8、堆
9、双桶法
10、MapReduce法
经典实例
1、TopK问题:分治法、hash法、最小堆
2、重复问题:位图
3、排序问题:数据库排序法、分治法、位图法
eg:哈希分治法 - 统计海量数据中出现次数最多的前10个IP:(快排思想、维护堆、分块法)
https://www.jianshu.com/p/62f85f53ec16
如何给100亿个数字排序?
https://www.jianshu.com/p/8dc11152f178