本文介绍WebMagic的一些用法以及用法。
一 ssl问题
老版本没有加支持协议github可能会遇到以下问题,更新最新版本或者使用以下解决方案绕过ssl时,没有支持版本
javax.net.ssl.SSLException: Received fatal alert: protocol_version
问题解决参考
https://www.cnblogs.com/sunny08/p/8038440.html
解决方案:
重写HttpClientGenerator类
buildSSLConnectionSocketFactory方法
添加SSLv2Hello协议
二 post请求问题默认去重
逻辑记得不要重复否则一直会添加post请求
三 post请求缺少参数类型
我看了下底层就缺第三种
没办法包装下咯
request 包装下stringEntity
HttpUriRequestConverter类
addFormParams方法
加入stringEntity
四 site参数设置
不要乱加refer
内容addheader不要gzip
正确是用 .setUseGzip(true)
site放通用header 比如UA cookie
其他接受内容形式 发送形式 写在request里面
五 xpath
不支持.xpath("//a[contains(text(),'5')])支持.xpath("//a[contains(@data,'5')])