使用ruby爬虫提取数据的特殊字符以及乱码(已解决)

情况一:在html中有些字符是预留的,例如'<'小于号就会显示'&amp;lt;',我们要把这些预留的符号转成我们想要的,包括一些不可见的字符,应该怎么做呢

           首先 我们 gem install htmlentities  安装这个gem ,下面看这个例子

1 require 'htmlentities'
2 HTMLEntities.new.decode "&iexcl;I&#39;m highly&nbsp;annoyed with character references!"
3 "¡I'm highly annoyed with character references!"

  再看一个例子

情况二:有些编码是ASCII-8BIT  我们不能使用它来存进数据库,会报错

首先,可以将它转换成name.force_encoding("Shift_JIS") 然后就ok啦

         

   

猜你喜欢

转载自www.cnblogs.com/zhe-hello/p/9776676.html