node学习——爬虫之文档编码问题

html文档编码问题,使用cheerio模块读取能解析的默认是gbk编码,而有些文档是gb2312编码,这里如果用cheerio.load(html)就解析不出来,我们需要用到另一个东西chrset  和 superagent 先安装 npm install 模块名  ;

引入使用:

const charset = require("superagent-charset");
const agent = require("superagent");
charset(agent);
function cheerioData(url) {
    let html = '';
    let resStr = '';
    agent.get(url).charset('gbk').end(function (err,res) {
        if(err){
            console.log('读取数据错误',err);
        }else{
            html =res.text;
            let $ = cheerio.load(html);
            let content =$('.kjxq_box02');
            let qs = $('.cfont2 strong').text();
            console.log(qs);
        }
    })
}

cheerioData("");

猜你喜欢

转载自blog.csdn.net/wangshang1320/article/details/86538241