python爬虫抓取网站情况举例 - 代码天地

python爬虫抓取网站情况举例

其他 2019-04-30 02:00:05 阅读次数: 0

a.假设获取的是二进制文件，则可以借鉴如下方法保存数据：

import requests
r = requests.get('https://www.baidu.com/img/bd_logo1.png')
with open('baidu.png', 'wb') as fp:
   fp.write(r.content)

b.为了反爬，有些网站会对Headers的User-Agent进行检测，需将headers信息传递给get函数的headers参数，例如知乎，直接访问会返回400，加上headers参数后可正确返回：

>>> re = requests.get('https://www.zhihu.com')
>>> re.status_code
400
# headers可从http测试网站https://httpbin.org或浏览器的“开发者工具”获得
>>> headers = {"User-Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.83 Safari/535.11"}
>>> re = requests.get('https://www.zhihu.com', headers = headers)
>>> re.status_code
200

反爬的策略还有很多，需要逐渐熟悉，有些网站要想获得数据还需要登录，需要分析登录需要的属性

c. 被JS渲染过的页面内容获取

可以通过浏览器的“开发者工具”功能寻找真正提供数据的页面，有时会有一定的难度。

猜你喜欢

转载自blog.csdn.net/Liiipseoroinis/article/details/89468282

python爬虫抓取网站情况举例

python爬虫抓取网站技巧总结

python 爬虫抓取网站img图片

python网络爬虫抓取网站图片

Python爬虫使用selenium抓取网站数据

Python爬虫抓取纯静态网站及其资源

用python爬虫抓取视频网站所有电影

python网络爬虫举例

抓取防爬虫的网站信息

【爬虫】Scrapy 抓取网站数据

python爬虫：批量抓取代理ip，进行验证，抓取豆瓣网站影视信息

【爬虫学习四】 Python大型爬虫案例: 抓取某电商网站的商品数据（1）

爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况

Python爬虫实战项目2 | 动态网站的抓取（爬取电影网站的信息）

Node爬虫抓取视频网站数据

【爬虫】使用magical抓取某个网站的图片

python爬虫——requests抓取某电影网站top100

直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy

Python爬虫抓取纯静态网站及其资源！动态的需要ajax！

Python爬虫小偏方：如何用robots.txt快速抓取网站？

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！

python使用requests爬虫抓取美女图片网站图片

python--爬虫--积累--多图片网站抓取加速方案和调优记录

实战：如何通过python requests库写一个抓取小网站图片的小爬虫

Python爬虫小记：模拟登录学院成绩查询网站抓取信息的过程分析与实现

【Python】爬虫案例——租房网站房间信息的全量抓取

python 爬虫 3 （实例：爬取网站照片、一句代码抓取图片）

Python 爬虫实现：抓取电影网站信息并入库

使用Python爬虫抓取某网站电影Top250并保存为Excel文件

python爬虫CSDN文章抓取

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)