正则替换法
写法:regexp_replace(stringA,stringB,stringC)
解释:在A字段中,把字符B替换为字符C
(注:HIVE中没有replace函数,数据库中可直接使用replace)
当还有中文的时候可以这样写:
regexp_replace(nvl(company,’’),’[\s]+|[\u3000]+|[,]’,’’)
\s: space, 空格
+: 一个或多个
^:开始。 ^\s:以空格开始
$:结束 。 \s$:以空格结束
|:或者
/g:global, 全局
trim函数替换
直接使用trim,那只能将标准的英文空格删掉,经常用regexp_replace函数
select
company
,regexp_replace(nvl(company,''),'[\\s]+|[\\u3000]+|[\,]','') as company01
,regexp_replace(company,' ','') as company02
,TRIM(company) as company03
,case when company rlike '[\u4e00-\u9fa5]' then '中文' else '数字' end as tag
from AAA.BBBBB