文本处理的一些技巧 unicode to UTF-8中文 linux shell下16进制 “\uxxxx” unicode to UTF-8中文

#gb2312 -t utf-8

iconv -f gb2312 -t utf-8  

#unicode to UTF-8中文

echo '\u6df1\u5733' | ascii2uni -a U -q > xx

#url编码
URLBM=`echo "${i}" | tr -d '\n' | xxd -plain | sed 's/\(..\)/%\1/g'`

#计算数字向上取整,bc计算得到小数,{print int($0)+1}得到整数+1;

num3=`echo "sclae=4; $num1/$num2" | bc`
num=`echo  ${num3} |awk  '{print int($0)+1}' `

文件中每行都以\n结尾,如果要去掉换行符,使用sed命令  # sed -i 's/\n//g' FileName

或者使用tr命令      # cat fileName | tr '\n' ''

去除字符串前后空格,  # cat xxx| awk '{gsub(/^\s+|\s+$/, "");print}'

 

扫描二维码关注公众号,回复: 7715247 查看本文章

1、curl请求GB2312网页乱码解决

Linux环境是UTF8的,请求GB2312内容是会乱码显示。需要转换格式,命令参考如下:

curl xxx | iconv -f gb2312 -t utf-8

这样有个小问题,如果文件下载不完全,会导致更多不可识别的乱码先下载,再转码2linux shell下16进制 “\uxxxx” unicode to UTF-8中文

1、安装一个uni2ascii-4.15-1.el6.rf.x86_64.rpm
下载地址:wget http://billposer.org/Software/Downloads/uni2ascii-4.18.tar.gz ,然后编译./config ,后make install,默认安装到./usr/bin目录下
2、然后可以使用ascii2uni命名转换
# echo '\u6df1\u5733' | ascii2uni -a U -q

猜你喜欢

转载自www.cnblogs.com/fyc119/p/11780268.html