版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haoyuexihuai/article/details/83382761
根据业务需要,需要抓取页面详情,很多时候,详情页来自于不同的类型分类,因此页面元素是不一样的
使用following-sibling
included_content = selector.xpath('/html/body/div[6]/div[3]/following-sibling::*') #正文
tempcontent=""
#循环拼接
for i in included_content:
# print(i.extract())
tempcontent+=i.extract()