学习python爬虫笔记(2) - 代码天地

学习python爬虫笔记(2)

编程语言 2018-09-02 23:59:29 阅读次数: 0

import requests
import json
from lxml import etree
import time

for i in range(5):
    page_start=str(i*20)
    url='https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start='+page_start
    headers = {''
               'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
               }
    response =requests.get(url,headers=headers,verify=False)
    content = response .content.decode()
    content_list =json.loads(content)['subjects']
    time.sleep(2)
    for div in content_list:
        rate=div["rate"]
        title=div["title"]
        url=div["url"]
        cover=div["cover"]
        print("{},\t{},\t{},\t{}\n".format(title,rate,cover,url))

url来源

上图为参数URL获取方式

上图为headers获取方式，动态网页如果没有headers 好像是读取不到数据的。

可以看到数据存放在subjects，所以我们解析它就可以得到我们想要的数据。

猜你喜欢

转载自blog.csdn.net/a17674188183/article/details/82183914

学习python爬虫笔记(2)

python 爬虫学习笔记（2）

Python 爬虫学习笔记2

Python爬虫学习笔记 -2

python爬虫学习笔记（2）-----代理模式

python网络爬虫学习笔记2

python网络爬虫学习笔记（2）

Python爬虫学习笔记（Selenium（2））

python爬虫笔记2

python爬虫学习笔记5:实例学习2

python爬虫学习笔记2：实例学习1

Python——爬虫学习2

Python 爬虫学习2

Python爬虫学习笔记

[Python学习笔记]爬虫

python 3爬虫学习笔记（2）—— 通过属性查找标签

Python爬虫（入门+进阶）学习笔记 1-2 初识Python爬虫

python高级爬虫笔记(2)

python高级爬虫笔记(2)

网络爬虫学习笔记2

python爬虫学习笔记(一)-爬虫介绍

学习Python的日子爬虫（2）

python的爬虫入门学习2

python 学习笔记简单爬虫

Python爬虫基础学习笔记

python 爬虫学习笔记（1）

学习python爬虫笔记(1)

python网络爬虫学习笔记

Python 爬虫学习笔记1

Python 爬虫学习笔记5

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)