awk 进阶，百万行文件取交集 - 代码天地

awk 进阶，百万行文件取交集

其他 2018-11-16 11:21:17 阅读次数: 0

今天我们说的不是简单的交集，而是如下示例：

file1：

as,er,gf,1212
kl,iop,1213
78,jkl,uio,jki,1214
vbnm,yuoi,678i,1215
sadfasdf,werqwerqw,qwerqwe,11111
uioupoiuiop,jklghj,217890

file2:

1212
1213
1214

说下需求，以f2为准，匹配f1，并输出交集

如果数据量很小可以直接使用grep -f 来实现：

grep -f f2 f1
as,er,gf,1212
kl,iop,1213
78,jkl,uio,jki,121

但是如果像我的生产实例一样，100w的数据量，就会出问题，

看来这样操作不仅费时，还很耗内存，

接着介绍我们今天的主角，强大的awk：

time awk  -F',' 'NR==FNR{a[$1]++}NR>FNR{if($NF in a){print}}' oss_uuid front_90w-1.txt >>test

我们看下用时：

仅仅用了7s

简单解释一下上面的awk命令：

time：打印命令执行的时间

NR==FNR{a[$1]++} #处理第一文件，也就是 oss_uuid 换成我们示例的，就是file2，将文件转换为数组格式

NR>FNR{if($NF in a){print}} #处理第二个文件，也就是 front_90w-1.txt，换成我们示例中，就是file1，将最后一列去file2中去做匹配，并输出匹配到的行。

awk，强大！

猜你喜欢

转载自www.cnblogs.com/slim-liu/p/9968140.html

awk 进阶，百万行文件取交集

awk进阶

awk 交集并集累加

shell编程awk进阶

Linux awk 进阶

awk进阶操作

awk入门及进阶

awk 处理多个文件

awk多文件处理

awk文件分析

awk删除重复文件

awk 一文件处理

awk

awk!

awk 取最大值

linux—awk进阶篇

linux进阶-awk精讲

awk基本用法与进阶用法

awk实战12-进阶-再谈awk匹配模式

awk合并文件的个人理解

awk处理文件小实践

【awk】合并多个文件的方法

awk打开多个文件的方法

awk实现文件反序输出

linux基础学习-18.5-awk进阶

每日一题--5 awk进阶

LeetCode（194.Transpose File）(awk进阶)

awk精讲-从进阶到果断放弃

Linux进阶_文本处理awk

awk 对固定长度文件的操作

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)