大数据问题常用的解决技巧

大数据处理无非面临的问题

数据量大，内存有限、处理效率的要求。

处理大数据核心思想是：

（1）大而化小分而治之

（2）降低精确度提高效率

（3）问题步骤分解并行处理-----类似于CUP流水线

常处理的问题：

（1）大数据集合查找TOP K问题。

（2）大数据集合去重问题。

（3）大数据集合求交集问题。

（4）大数据集合求元素频率问题。

解决问题的方法：

问题实例：

一. 设计算法找到每日访问百度出现次数最多的10个IP地址？

分析：将所有的IP逐个写入到一个大文件中，因为当IP地址采用点分十进制的方式表示的时候是32位的，所以最多存在2^32个IP。可以采用映射的方式，比如模1000，将这个较大的文件映射为1000个小文件，再将每个小文件加载到内存中找到每个小文件中出现频率最大的10个IP(可以使用hash_map的思想进行频率统计)；然后在这10000（1000*10）个最大的IP中找出那个出现频率最大的10个IP，就是出现次数最多的10个IP了。

算法思想如下：(分而治之+hash)

1).IP地址最多有2^32=4G个，所以不能直接将所有的IP地址加载到内存中

2).可以考虑采用"分而治之"的思想，就是将IP地址Hash(IP)%1024值，将海量IP分别存储到1024个小文件中，这样每个小文件最多包含(2^32)/(2^10)=4M个IP地址

3).对于每一个小文件，可以构建一个IP值为key,出现次数为vaue的hash_map，通过value的比较找到每个文件中出现次数最多的那10个IP地址

4).经过上述步骤已经得到10240个出现次数最多的IP地址，再选择一定的排序算法找出这1024个IP中出现次数最多的那10个IP地址

二.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集？

分析：我们知道对于整形数据来说，不管是有符号的还是无符号的，总共有2^32=4G个数据(100亿个数据中肯定存在重复的数据)，我们可以采用位图的方式来解决，假如我们用一个位来代表一个整形数据，那仫4G个数共占512M内存。我们的做法是将第一个文件里的数据映射到位图中，再拿第二个文件中的数据和第一个文件中的数据做对比，有相同的数据就是存在交集(重复的数据，交集中只会出现一次).

三.假定一个文件有100亿个整形数据，1G内存，如何找到出现次数不超过两次的数字？

分析：要解决这个问题同样需要用到位图的思想，在问题二中已经了解到采用位图的一个位可以判断数据是否存在，那仫找到出现次数不超过两次的数字使用一个位是无法解决的，在这里可以考虑采用两个位的位图来解决.

根据上述分析我们可以借助两个位，来表示数字的存在状态和存在次数，比如：00表示不存在，01表示存在一次，10表示存在两次，11表示存在超过两次；类似问题二的计算过程：如果一个数字占一位，需要512M内存即可，但是如果一个数字占两位，则需要(2^32)/(2^2)=2^30=1G内存；将所有数据映射到位图中查找不是11的所对应的数字就解决上述问题了。

题目扩展：其他条件不变，假如只给定512M内存该如何找到出现次数不超过两次的数字？

分析：将数据分批处理，假若给定的是有符号数，则先解决正数，再解决负数，此时512M正好解决上述问题.

四.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两文件交集？分别给出精确算法和近似算法!

分析：看到字符串首先应该反应过来的就是布隆过滤器，而问题四的近似算法就是采用布隆过滤器的方法，之所以说布隆过滤器是近似的算法，因为它存在一定的误判(不存在是肯定的，存在是不肯定的)；而要想精确判断字符串文件的交集，我们可以采用分而治之的方法：将大文件切分为一个一个的小文件，将一个又一个的小文件拿到内存中做对比，找到对应的交集。

1.布隆过滤器的近似解决办法：

根据不同的字符串哈希算法，可以计算出不同的key值，然后进行映射，此时可以映射到不同的位置，只有当这几个位全部为1的时候这个字符串才有可能存在(因为当字符串过多的时候可能映射出相同的位)，只有一个位为0，那仫该串一定是不存在的，所以说布隆过滤器是一种近似的解决办法。将第一个文件映射到布隆过滤器中，然后拿第二个文件中的每个串进行对比(计算出特定串的key，通过不同的哈希算法映射出不同的位，如果全为1则认为该串是两个文件的交集；如果有一位为0那仫该串一定不是交集).

2.哈希切分的精确解决办法：

既然叫做切分，顾名思义就是将大文件切分为小文件，那仫如何切分？切分的依据是什仫呢？如果我们在切分的时候可以将相似或者相同的文件切分到同一个文件中那仫是不是就加快了查找交集的速度呢？答案是肯定的。

知道了哈希切分的依据我们应该如何处理呢？我们可以根据字符串的某个哈希算法得到该字符串的key，然后将key模要分割的文件数(假设为1000个文件，文件编号为0~999)，我们将结果相同的字符串放到同一个文件中(两个文件中的字符串通过相同的哈希算法就会被分到下标相同的文件中)，此时我们只需要将下标相同的文件进行比对就可以了。。。

哈希切分明显比布隆过滤器的方法效率要高，时间复杂度为O(N).

大数据问题常用的解决技巧

猜你喜欢