浏览器伪装技术爬取csdn伪装技术 - 代码天地

浏览器伪装技术爬取csdn伪装技术

其他 2018-09-15 23:26:02 阅读次数: 0

友情提示：一般的网站都会有反爬虫技术，因此想要爬取这些网站信息就必须学会浏览器的伪装

想要伪装成浏览器则必须为爬虫添加浏览器报头信息，这些报头信息需要技术人员亲自从网站代码中复制

例如csdn报头信息如下：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36


下面给出一个爬虫小实例：爬虫把csdn信息存入data中并输出data数量

 1 import urllib.request
 2 import re
 3 url="http://blog.csdn.net/"
 4 
 5 #伪装成浏览器报头  去浏览器中读代码找到 Use-Agent的值
 6 headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36")
 7 #创建oenener对象
 8 opener=urllib.request.build_opener()
 9 opener.addheader=[headers]
10 #把opener添加为全局
11 urllib.request.install_opener(opener)
12 
13 data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
14 print(len(data))

猜你喜欢

转载自www.cnblogs.com/du1269038969/p/9652955.html

浏览器伪装技术爬取csdn伪装技术

爬虫的浏览器伪装技术（019）

爬虫的浏览器伪装技术

爬虫--浏览器伪装技术（urllib）

Python爬虫：Fiddler的使用和浏览器伪装技术

爬虫笔记（十二）——浏览器伪装技术

爬虫的浏览器伪装技术代码实例

爬虫基础-----爬虫的浏览器伪装技术

浏览器伪装

用python2和python3伪装浏览器爬取网页

Python爬虫+requests+伪装浏览器爬取小说入门总结

伪装浏览器身份

Python学习之爬虫05-爬虫的浏览器伪装技术实战

Python网络爬虫---爬虫的异常处理实战、浏览器伪装技术实战

[伪装浏览器报头]html爬虫伪装头

python爬虫之美剧排行榜爬取(加浏览器伪装，代理，异常处理)

Python数据爬虫学习笔记（12）爬取腾讯视频评论数据（Fiddler抓包+浏览器伪装）

Requests爬虫之伪装浏览器

python学习，浏览器伪装

python爬虫伪装浏览器

Python网络爬虫:伪装浏览器

使用Urllib(2)--浏览器伪装

python网络爬虫--浏览器伪装

Python网络爬虫：自动模拟HTTP请求&爬虫的异常处理&爬虫浏览器伪装技术&新闻爬虫实战

python爬虫.2.伪装浏览器

Nodejs使用Chrome伪装微信浏览器UA

Python爬虫3-----浏览器伪装

用户代理列表--爬虫伪装浏览器访问用

Python爬虫伪装浏览器，初步提取信息！

fake-useragent库：伪装浏览器Header

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)