正则表达式及常用命令

文章目录

一、sort命令

以行为单位对文件内容进行排序，也可以根据不同的数据类型来排序

格式：

1. sort 选项 参数
2. cat file | sort 选项

常用选项：

-n：按照数字进行排序
-r：反向排序
-k：指定排序字段
-f：忽略大小写，默认会大写字母排在前面
-b：忽略每行前面的空格
-t：指定字段分隔符，默认使用tab键分隔
-o <输出文件>：将排序后的结果转存至指定文件
-u：等同uniq，表示相同的数据仅显示一行，去重

在这里插入图片描述

二、uniq命令

用于重复的数据处理使用前要先使用sort进行排序

格式：

uniq [选项] 参数
cat file | uniq 选项

常用选项：

-d 仅显示重复行
-u 仅显示出现一次的行
-c 进行计数，并删除文件中重复出现的行

在这里插入图片描述

三、tr命令

常用于对来自标准输入的字符进行替换、压缩和删除

格式：

tr 选项 参数

常用选项：
在这里插入图片描述

参数：

字符集1：

指定要转换或删除的原字符集。当执行转换操作时，必须使用参数”字符集2“指定转换操作时，必须使用参数”字符集2“指定转换的目标字符集。但执行删除操作时，不需要参数”字符集2“

字符集2：

指定要转换成的目标字符集

在这里插入图片描述

数组排序

echo ${
    
    arr[*]} | tr ' ' '\n' | sort -n

在这里插入图片描述

四、正则表达式

通常用于判断语句中，用于检查某一字符串是否满足某一格式
正则表达式是由普通字符与元字符组成

普通字符包括大小写字母、数字、标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式

4.1 基础正则表达式常见元字符

支持的工具:
grep、 egrep、 sed、 awk

^ :匹配字符串开始的位置，  例: ^root、 ^#、  ^[a-z] （以小写字母开头）

\ :转义字符，用于取消特殊符号的含义，例: \!（取反号）、\n（换行符）、\$（以...结尾）等

$ :匹配字符串结束的位置，例: test$、 ^$匹配空行

* :匹配前面子表达式0次或者多次，例: abc*e、 ab.*e

. :匹配除换行符（\n）之外的任意的一个字符，例: abc.e、 ab..d

\{
    
    n\} :匹配前面的子表达式n次，例: ab\{
    
    3\}d、  '[0-9]\{3\} '匹配3位数字

\{
    
    n,\} :匹配前而的子表达式不少于n次，例: ab\{
    
    2, \}d、'[0-9]\{2, \}'匹配两位及两位以上数字

\{
    
    x,y\} :匹配前面的子表达式x到y次，例: ab\{
    
    2,3\}d、 ' [0-9]\{2,3\}'匹配两位到三位数字
ps：使用egrep、awk工具时  使用{
    
    n}、{
    
    n,}、{
    
    n,m}匹配 “{
    
    }” 前不用加“\”

[list] :匹配list列表中的一个字符，例: ab[cde]d， [abc]、 [a-z]、 [a-z0-9]、 [0-9]匹配任意一位数字

[^list] :匹配任意非list列表中的一个字符，这里的^不再是以...开头的意思 而是非列表内的意思
例: [^0-9]、 [^A-20-9]、 [^a-z]匹配任意一位非小写字母

4.2 扩展正则表达式

支持的工具：
egrep、awk

扩展正则表达式元字符：

+ ：匹配前面子表达式1次以上，例：ab+d，将匹配至少一个b

? ：匹配前面子表达式0次或者1次，例：ab?c，匹配为 ac 或 abc

() ：将括号中的字符串作为一个整体，例：a(bc)+d，将匹配bc整体1次以上 匹配为 abcd abcbcd

| ：以或的方式匹配字条串，例：a(bc|xx)d，匹配为 abcd axxd

正则表达式及常用命令

文章目录

一、sort命令

二、uniq命令

三、tr命令

四、正则表达式

4.1 基础正则表达式常见元字符

4.2 扩展正则表达式

猜你喜欢