算法问题

其他 2018-06-02 00:52:48 阅读次数: 0

今天碰到了一个问题：

有两个文本文件，一个有二百万的数据，一个有一百万的数据，我怎样求两个文本文件数据的交集呢？

1：我的思路首先是这样的，那少的数据（一百万的数据）逐个跟二百万的数据相比，相等的拿出来，然后我写了个小程序

跑了三个多小时，才出来五百多个。显然不能这样搞。

然后我们老大想了个算法，我真的很佩服：

1：首先把这两个数据去重，linus命令如下：uniq one.txt >one_uniq.txt, uniq two.txt>two_uniq.txt.

2: 然后把one_uniq.txt,two_uniq.txt放到一起取重复的，命令如下： cat one_uniq.txt two_uniq.txt|sort|uniq -d>result.txt

result.txt里的数据即为结果，一共花了不到五秒钟的时间，这就是差距啊。

猜你喜欢

转载自yuehuahappy.iteye.com/blog/1528041

算法面试常见问题

算法学习——日期处理问题

回溯算法的一些问题

日期处理问题（摘自算法笔记）

算法中的P问题、NP问题、NP完全问题和NP难问题

关于递归算法的一些常见问题

算法工程师面试常见问题

贪心算法简介 -- 活动时间问题

关于算法上的一些问题

YOLO-V1算法关键问题说明

聚类的基本问题及两个常用算法

PyInstaller 打包 xgboost算法包等可能出现问题

【刷题】面筋-算法题常见问题合集

贪心算法--常见问题总结

算法岗面试常见问题大集合

【算法】算法学习六：贪婪算法 | NP完全问题

大数据 | 大数据基础--算法之并行计算算法：基本问题（二）

大数据 | 大数据基础--算法之并行计算算法：基本问题（一）

LeetCode刷题笔记算法中的数学问题数字处理问题

css兼容问题

信号处理问题

兼容问题

学会发现问题--提出问题--分析问题--解决问题

weblogic 时间问题

WAS常见问题

redis 安全问题

待处理问题

viewflow的兼容问题

常见问题

tomcat时间问题

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)