之前说过腾讯招聘的数据爬取,但是效率实在是有一些低,
这样 ,今天我们使用多线程的方式来爬取数据,然后先简单回顾一下多线程
多线程类似于同时执行多个不同程序,多线程运行有如下优点:
使用线程可以把占据长时间的程序中的任务放到后台去处理。
用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度
程序的运行速度可能加快
在一些等待的任务实现上如用户输入、文件读写和网络收发数据等,线程就比较有用了。在这种情况下我们可以释放一些珍贵的资源如内存占用等等。
线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依存在应用程序中,由应用程序提供多个线程执行控制。
每个线程都有他自己的一组CPU寄存器,称为线程的上下文,该上下文反映了线程上次运行该线程的CPU寄存器的状态。
指令指针和堆栈指针寄存器是线程上下文中两个最重要的寄存器,线程总是在进程得到上下文中运行的,这些地址都用于标志拥有线程的进程地址空间中的内存。
线程可以被抢占(中断)。
在其他线程正在运行时,线程可以暂时搁置(也称为睡眠) -- 这就是线程的退让。
首先,我们先找一下数据接口吧
直接使用xpath来做
先看看能不能获取这个界面
可以观察到,这种数据结构可以拿到,我们接下来使用线程的方式来拿到所有的数据
代码如下:
import random
import threading
import requests
import json
#第一步 写子类 需要继承父类THREAD 类 复写run方法
url = 'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex=1&pageSize=10'
class Thread_crawl(threading.Thread):
#初始化
def __init__(self,page):
threading.Thread.__init__(self)
self.page = page
def run(self):
url = 'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex=1&pageSize=10'.format(self.page)
self.get_content(url=url)
def get_content(self,url):
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6824.400 QQBrowser/10.3.3127.400'
}
response = requests.get(url=url,headers=headers).content.decode('utf-8')
self.get_data(response)
#解析
def get_data(self,response):
data= json.loads(response)
#提取数据 ,将json字符串转化为标准python字典格式
data_list = data['Data']['Posts']
for i in data_list:
##岗位名称
name = i["RecruitPostName"]
countryname = i["CountryName"]
Responsibility = i["Responsibility"]
PostURL = i["PostURL"]
info = 'name:'+name+ '---'+"CountryName:"+countryname+'---'+"PostURL:"+PostURL+'---'+"Responsibility:"+Responsibility
with open('job.txt','a',encoding='utf-8') as fp:
fp.write(info + '\n')
if __name__ == '__main__':
for page in range(1,61):
crawl = Thread_crawl(page)
crawl.start()