工业缺陷检测学习笔记

标题1 工业场景与自然场景对比如下：

特性	自然场景	工业场景
尺度	变化大	变化小
遮挡	有遮挡	无遮挡
形态	变化大	变化小
类别	类别多	类别少
光照	不稳定	稳定
干扰	干扰大	干扰小
自然场景一般是强语义信息，缺陷检测一般为弱语义信息，缺陷检测一般运用局部区域就可以判别。

标题2 缺陷归纳

做好缺陷的归类，才容易下手。这里给出三种归纳方法：

归纳一：
纹理缺陷：替代原始样本纹路表现，位置、大小、形态不固定；划痕、脏污等；
结构缺陷：与目标结构有关，其位置、形态较固定，可能不存在量化的概念（错漏反）；
其他缺陷：例如医学图像、一些红外热成像、超声波成像等，可能无法靠肉眼建立精准的对应关系
综合以上

归纳二（站在正常样本建模的角度）：
纹理（一般指重复的结构，可能存在颗粒比较大的纹理）
非纹理对齐：与结构相关，但是可以做到对齐
非纹理无法对齐：与结构无关，但是很难对齐
综合以上

归纳三（形态上）：
加法：脏污、异物、附着、
减法：残缺、划痕、破损
替换：混色、异色、杂质、混淆
变形：扭曲、尺寸、褶皱

标题3 可行性分析

明显：缺陷清晰可见，肉眼容易辨别，同时也是对光学成像提出要求；
明确：缺陷标准定义明确，没有争议，是对需求进行筛选；

标题4 数据难点

难分、多样性、不平衡、数据脏。
数据难点
（1）数据难分：易分样本（也就是明显缺陷和明显不是缺陷）不能出错；漏检和误检达到平衡；
（2）多样性不够：难以收集到全部形态的缺陷样本，基于“缺陷描述”，结合正常样本学习和数据生成的方法来降低“多样性不够”的影响；
（3）样本不平衡：样本级别不平衡，大量正常样本，NG样本占比较小；缺陷占整体较小，导致耗时、难控制误检；类别上不平衡，某一类缺陷占比较大，有些占比极小，基于大量样本可以解决。

标题5 数据脏

数据脏就是标注的时候把标注类别搞错。脏数据会对网络训练带来不利的影响，强行训练会有过拟合的风险。因为网络提取通用特征，拟合不到缺陷只能去拟合其他噪声了。
数据脏还比较好办，归根到底是数据标注的问题。
全网最全的工业表面缺陷检测数据集及论文鸡开源项目：https://github.com/Charmve/Surface-Defect-Detection/
学习自知乎皮特潘，在此整理！！！
https://zhuanlan.zhihu.com/p/375828501