数据集的构建(digits)
数据集的选择
Digits提供多种数据集的创建,包括图片分类、目标检测、图像分割和其他类的数据集。并且digits的数据集的概念比较符合我们想法,digits的数据集就是创建好之后可以直接送入神经网络进行训练的数据集。
图片分类的数据集
图片分类的数据集创建包含三部分:
-
数据集原图片的类型选择,
- 图片类型灰度or彩色
- 图片的resize大小,resize的方式可选:fill 、crop 、squash等
-
数据集的来源。
- 包括三种方式,制定文件夹方式、上传文件方式和s3方式。
- 指定图片的类别
- 划分验证集
-
数据集的创建
- 后端的存储方式
- 图片的编码格式
- 数据集的归属及名称
目标检测的数据集
目标检测的数据集创建分为两部分:
-
数据集的基本信息
- 包括训练集的位置、标签位置、验证集的位置、标签位置
- 图片的基本信息,包括图片的大小、灰度or彩色
- 目标检测的基本类别
-
数据集的创建
- 包括图片的编码格式和标签的编码格式
- 数据集创建的进程数量(我是这么理解的)
- 数据集的压缩格式
- 数据集的归属及名称
图像分割的数据集
图像分割的数据集的创建和目标检测类似。
-
数据集的基本信息
- 原图片的路径及标签路径
- 验证集的划分
- 类别标签和颜色的矩阵标签
- 图片的通道数 RGB or 灰度
-
数据集的创建
- 图片及标签图片的编码格式 png or jpg
- 数据集创建的进程数量(同上)
- 数据集的压缩格式 (LMDB)
- 数据集的归属及名称
模型的训练
模型的训练以下几部分:
-
数据集的选择
- 模型创建与数据集选择是一一对应的,意思是创建了分类的模型只能选分类的数据集。
-
超参数的调节
- digits支持c超参数调节,对应caffe中的solve配置文件,比较容易实现
-
网络模型的选择
- 网络的选择也是按照用处来分类的,分类模型、检测模型、还是分割模型、网络模型与数据集的创建和训练的创建都是一一对应的。
-
训练的名称,包括训练之后模型的名称
基本上其余模型的训练创建方式也是大同小异的,没有什么本质的区别。