昨天有小伙伴找我，新浪新闻的国内新闻页，其他部分都是静态网页可以抓到，但是在左下方的最新新闻部分，不是静态网页，也没有json数据，让我帮忙抓一下。大概看了下，是js加载的，而且数据在js函数中，很有意思，就分享出来给大家一起看看！

抓取目标

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

今天我们的目标是上图红框部分，首先我们确定这部分内容不在网页源代码中，属于js加载的部分，点击翻页后也没有json数据传输！

需要Python学习资料可以82 年 18 月 71号考试075分去掉文字加我的裙，资料免费赠予大家！（书籍太多，我就随便发一点咯！）

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

但是发现有个js的请求，点击请求，是一行js函数代码，我们将其复制到json的视图查看器中，然后格式化一下，看看结果

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

发现里面有可能存在我们需要的内容，比如url、title、intro这3个参数，猜测就是对应的新闻URL、标题、简介

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

只是其内容，需要在进行处理一下，我们写到代码中看看

开始写代码

先导入库，因为最终需要从字符串中截取部分，所以用requests库获取请求，正则re匹配内容即可。然后我们先匹配出上述3项

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

可以看到，url中存在\\，标题和简介是以\\u539f\\u6807\\u9898的形式存在，这些就是我们需要处理的下一步了！

先用replace函数提出url中\\，即可得到url，后面的\\u539f\\u6807\\u9898则是unicode编码，可以直接解码得到内容，直接写代码了

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

解码用了eval函数，内容为u'unicode编码内容'的形式即可解码！

这样，就取出了本页的所有新闻和URL的相关内容，在外层加上循环，即可抓取所有的新闻页，任务完成！

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

发布了29 篇原创文章 · 获赞 2 · 访问量 1137

私信关注