去上海京东,时间很久了,有些忘记了。有一个问题印象深刻,当时没有想出来,这里陈述一下吧。
挂的心服口服,没有做好充分准备,仓促应战。唉,想要冲刺BAT级别大厂的同学,一定要平时多做一些算法题目,这里推荐刷一遍《剑指offer》,另外互联网大厂的算法题都是海量数据处理,要多积累。
一个文件里面有100亿个IP地址。这些IP可能有重复的,也可能没有。写一个伪代码,把重复次数最多的IP以及其重复次数打印出来。
这个问题第一个坑就是,数量太大,不能按照几百几千来看问题。这个文件肯定不可能一次性放到内存里的,数据库也没有这么大的。
网上找到了类似题目的解答,细细品味一下。
感谢@wish123的《十道海量数据处理面试题与十个方法大总结》