北京58同城二手手机页面-商家
要获取商家所有页面的单个链接,然后进入链接获取内容
图片可能也是做了反爬机制,爬取不到,太菜了..
代码
from bs4 import BeautifulSoup
import requests
import time #导入库
#--------------------------------------------------------------------
def get_more_url(Total_url): #得到单页内所有的商品详情页链接
wb = requests.get(Total_url)
web = BeautifulSoup(wb.text,'lxml')
urls = web.select('a.title.t')#最简单的定位了
urlss=[]
for i in urls:
urlss.append(i.get('href'))
return urlss #将所有的商品详情页链接导入列表,并返回
#-------------------------------------------------------------------
def get_content(url): #得到商品详情页的商品标题,时间,价格
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.select('div > h1')
price = soup.select(
'#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li > div.su_con > span')
times = soup.select('#index_show > ul.mtit_con_left.fl > li.time')
for ti, pr,tim in zip(title, price,times):
print(ti.get_text())
print(pr.get_text())
print(tim.get_text()) #并打印出来
time.sleep(0.05) #延时,防止被检测
#-----------------------------------------------------------------------------
#主程序
url_number = 1 #搜索出来的页数
#total_url = 'http://bj.58.com/shouji/1/pn%s' % str(url_number)#构造页面
list_num = 1 #第n个详情页
#没有学代理库,爬虫老是被禁IP
while url_number < 44 : #看到的,大概有40多页,但是只爬出10页,然后因为频繁访问又一次被限制了!!
total_url = 'http://bj.58.com/shouji/1/pn%s' % str(url_number) # 构造页面
print(str(url_number) + '页------------------')
urls = get_more_url(total_url) #得到第n页所有的详情页链接
for i in urls:
print(list_num)
list_num += 1
get_content(i)
url_number += 1
从爬取的商品详情页的时间来看,确实是按照顺序一页一页爬取的
这个可能是封一天吧,昨天就被封了哈哈,0.05秒都不行