搜狗的验证码挺有趣的,干扰给满分,今天不做方案,只做分享
【核心】重中之重:
样本下载地址:[https://bbs.nightteam.cn/thread-149.htm](https://bbs.nightteam.cn/thread-149.htm)
一共17W样本,性能再差的网络也能识别的很好了
训练并没有什么注意事项,但是印象中这个验证码发生过一次改动,尺寸修改,那么如何应对这种变化而不用二次训练呢?这才是今天的主题
【提升模型的泛化能力——适应尺寸变化】
我们的样本尺寸是单一的,通过观察,我们得知,如果通过裁剪修改图片比例容易丢失重要内容的像素,那么我们可以反其道通过填充模拟:
下面列举几个方案:
方案一:
可以通过复制【红色区域】向上延展图片内容。——四个方向同理
方案二:
图片拼接:怎么说呢,我们可以手动筛选出部分字符,做一个图像生成器,旋转放大扭曲等等之后拼接于首位或末尾
方案三:
生成一部分尺寸不一,字体相近的验证码按一定的权重和样本混合训练
训练流程
可以参见:
https://blog.csdn.net/kerlomz/article/details/86706542