JD商品详情页的网页分析
入口URL选择为JD某商品详情页:https://item.jd.com/4224129.html
我们需要分析的内容主要有:
详情页上指向的其他URL
我们打开https://item.jd.com/4224129.html,发现网页上还有很多指向其他商品的链接。
通过鼠标右键,查看元素,我们可以发现商品页面上的以上链接均为以下格式: //item.jd.com/数字.html
分析到此,我们就知道抓取网页内容时,从当前页面上抽取新的URL的方法了。
商品名称、价格
同理,我们在商品名称和价格处点击鼠标右键查看元素
简单爬虫框架
1.爬虫总调度程序
即我们的main文件,以入口URL为参数爬取所有相关页面
2.URL管理器
维护待爬取和已爬取的URL列表
3.HTML下载器
主要功能是下载指定的url,这里用到了urllib2
4.HTML解析器
主要功能是获取网页上所需的URL和内容,用到BeautifulSoup
5.输出程序
将爬取到的数据写入HTML文件中,利用HTML的table展示
源码
爬虫总调度程序
URL管理器
HTML下载器
HTML解析器
输出程序
待解决问题
关于我爬取不到价格的问题...
调试中发现我已爬取到了对应的内容,唯独少了价格...一度扎心啊...