hive 转义字符的使用，以及regexp_extract用法

regexp_extract语法:

regexp_extract(string subject, string pattern, int index)

返回值: string

说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。

第一参数：要处理的字段

第二参数: 需要匹配的正则表达式

第三个参数:

0是显示与之匹配的整个字符串
1 是显示第一个括号里面的
2 是显示第二个括号里面的字段…

注意，在有些情况下要使用转义字符（双斜杠了‘\’）。

 select
        regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',0),  -- x=18abc
        regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','^x=([a-z]+)([0-9]+)',0), -- x=a3
         
        regexp_extract('https://detail.tmall.com/item.htm?spm=608.7065813.ne.1.Ni3rsN&id=522228774076&tracelog=fromnonactive','id=([0-9]+)',0),    -- id=522228774076
        regexp_extract('https://detail.tmall.com/item.htm?spm=608.7065813.ne.1.Ni3rsN&id=522228774076&tracelog=fromnonactive','id=([0-9]+)',1),    -- 522228774076
         
        regexp_extract('http://a.m.taobao.com/i41915173660.htm','i([0-9]+)',0),            -- i41915173660
        regexp_extract('http://a.m.taobao.com/i41915173660.htm','i([0-9]+)',1)             -- 41915173660
         
    
    from test.dual;

正则常见匹配

简述：

表达式 .* 的意思很好理解，就是单个字符匹配任意次，即贪婪匹配。
表达式 .*? 是满足条件的情况只匹配一次，即懒惰匹配

示例

表达式 .* 的意思很好理解，就是单个字符匹配任意次，即贪婪匹配。正则表达式(.?)惰性匹配
1、. 匹配任意除换行符“\n”外的字符；
2、表示匹配前一个字符0次或无限次；
3、+或后跟？表示非贪婪匹配，即尽可能少的匹配，如？重复任意次，但尽可能少重复；
4、 .? 表示匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。
如：a.?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab和ab。

常见应用

^ 表示开头
$ 表示结尾
. 表示任意字符
* 表示任意多个

参考链接：https://www.cnblogs.com/skyEva/p/5175377.html