爬虫Requests请求流程 - 代码天地

爬虫Requests请求流程

其他 2019-07-01 18:38:14 阅读次数: 0

爬虫三部曲

1.发送请求

def get_page(url):
   respone=requests.get(url)
   return respone

2.解析数据

import re
def parse_index(html):

#findall匹配所有

#re.findall（“匹配所有”，html,re.S）

#re.S(对全部文本进行匹配）

detail_urls=re.findall('<div class="items"><a class="imglink" href="(.*?)"',html,re.S)
   return detail_urls

#解析详情页

def parse_detail(html):
  movie_url=re.findall('<source src="(.*?)">',html,re.S)
  if movie_url:
    return movie_url[0]

3.保存数据

import uuid

#uuid.uuid4()根据时间戳生成一段世界上唯一的字符串

def save_video(content):
  with open(f'{uuid.uuid4()}.mp4','wb')as f:
   f.write(content)
   print('视频下载完毕...')

#main+回车键

测试用例：

if_name_='_main_'
for line in range(5):
 url=f'http://www.xiaohuar.com/list-3-{line}.html'

#发送请求

response=get_page(url)
#print(response)

#返回响应状态码

#print(respone.status_code)

#返回响应文本

#print(response.text)

#解析主页页面

detail_urls=parse_index(response.text)

#循环遍历详情页url

for detail_url in detail_urls:
      #print(detail_url)

#往每一个详情页发送请求

      detail_res=get_page(detail_url)
      #print(response.text)

#解析详情页获取视频url

      move_url=parse_detail(detail_res.text)

#判断视频url存在则打印

      if move_url:
          print(move_url)

#往视频url发送请求获取视频二进制流

      move_res=get_page(move_url)

#把视频的二进制流传给save_video函数去保存到本地

     save_video(move_res.content)

猜你喜欢

转载自www.cnblogs.com/changgeyimeng/p/11115811.html

爬虫Requests请求流程

requests爬虫get请求

爬虫请求库 requests requests模块

爬虫（17）：requests的post请求

Python爬虫requests请求库

1、web爬虫，requests请求

02爬虫requests请求库

Python爬虫【二】请求库requests

爬虫（16）：requests带参的get请求

Python——爬虫【Requests设置请求头Headers】

爬虫基本请求库的使用(二)requests

Python爬虫的开始——requests库建立请求

python爬虫5--requests请求库

爬虫使用requests发送post请求示例

Python爬虫 requests教学（一）：requests的请求参数

爬虫入门：（二）爬虫请求库urllib和requests

Python3爬虫（四）请求库的使用requests

超级详细的Python爬虫介绍(Requests请求)--学习笔记

python3爬虫（一）：请求库之requests

【Python爬虫】Requests 请求并读写、保存到excel文件中

python爬虫笔记（三）requests模块深入—发送post请求

python网络爬虫requests库请求返回response属性解析

python爬虫（八） requests库之 get请求

scrapy爬虫中(Requests+FormRequest)两大请求

爬虫基础（4）发送请求之requests库的使用

Python爬虫requests请求无响应的解决方法

python爬虫学习requests中的模块请求参数之二

python爬虫学习requests中的模块请求参数之一

Web爬虫|入门教程之请求库requests

爬虫（Requests）

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)