文本处理的一些技巧 unicode to UTF-8中文 linux shell下16进制 “\uxxxx” unicode to UTF-8中文

#gb2312 -t utf-8

iconv -f gb2312 -t utf-8

#unicode to UTF-8中文

echo '\u6df1\u5733' | ascii2uni -a U -q > xx

#url编码
URLBM=`echo "${i}" | tr -d '\n' | xxd -plain | sed 's/$..$/%\1/g'`

#计算数字向上取整,bc计算得到小数，{print int($0)+1}得到整数+1；

num3=`echo "sclae=4; $num1/$num2" | bc`
num=`echo ${num3} |awk '{print int($0)+1}' `

文件中每行都以\n结尾，如果要去掉换行符，使用sed命令 # sed -i 's/\n//g' FileName

或者使用tr命令 # cat fileName | tr '\n' ''

去除字符串前后空格， # cat xxx| awk '{gsub(/^\s+|\s+$/, "");print}'

扫描二维码关注公众号，回复： 7715247 查看本文章

1、curl请求GB2312网页乱码解决

Linux环境是UTF8的，请求GB2312内容是会乱码显示。需要转换格式，命令参考如下：

curl xxx | iconv -f gb2312 -t utf-8

这样有个小问题，如果文件下载不完全，会导致更多不可识别的乱码，先下载，再转码2、linux shell下16进制 “\uxxxx” unicode to UTF-8中文

1、安装一个uni2ascii-4.15-1.el6.rf.x86_64.rpm
下载地址:wget http://billposer.org/Software/Downloads/uni2ascii-4.18.tar.gz  ,然后编译./config ,后make install，默认安装到./usr/bin目录下
2、然后可以使用ascii2uni命名转换
# echo '\u6df1\u5733' | ascii2uni -a U -q

文本处理的一些技巧 unicode to UTF-8中文 linux shell下16进制 “\uxxxx” unicode to UTF-8中文

猜你喜欢