期刊：remote sensing

日期：2022.1

2.1. Image Collection and Annotation

2.2. Image Preprocessing

2.3. ViT Self-Attention

2.4. Vision Transformers

3. Performance Evaluation

3.1. Cross-Validation

3.2. Evaluation Metrics

4. Results

5. Discussion

6. Conclusions

Abstract

监测作物和杂草是当今农业和粮食生产的一大挑战。杂草与作物直接竞争水分、养分和阳光。因此，如果不加以充分控制，它们对作物产量会产生重大的负面影响。杂草检测和绘图是杂草控制中的一个重要步骤。许多现有的研究认识到遥感系统和机器学习算法在杂草管理中的重要性。深度学习方法在许多与农业相关的遥感任务中表现出良好的性能，例如植物分类、疾病检测等。然而，尽管这些方法取得了成功，但它们仍然面临许多挑战，例如计算成本高、需要大型标记数据集、，类内鉴别（生长期杂草和作物具有颜色、纹理和形状等许多属性相似性）。本文旨在表明，在无人机系统识别杂草和作物的背景下，基于注意力的深度网络是解决上述问题的一种很有前景的方法。本研究的具体目标是研究Vision Transformer（ViT），并将其应用于无人机（UAV）图像中的植物分类。使用安装在无人机上的高分辨率相机收集数据，无人机部署在甜菜、欧芹和菠菜田。获取的数据被扩充以构建更大的数据集，因为ViT需要更大的样本集以获得更好的性能，我们还采用了迁移学习策略。实验旨在评估训练和验证数据集大小的效果，以及在减少训练集的同时增加测试集的效果。结果表明，对于一个小的标记训练数据集，ViT模型的性能优于最先进的模型，如EfficientNet和ResNet。本研究的结果是有希望的，并显示了ViT在广泛的遥感图像分析任务中的应用潜力。

1. Introduction

农业是科学发展和创新的核心，在实现高产生产的同时，保护植物生长和质量以满足市场预期需求[1]。然而，现代农业中出现的一个主要问题是过度使用化学品来提高产量和清除杂草等有害植物[2]。杂草通常被认为对农业生产有害[3]。它们与农作物直接竞争水分、养分和阳光[4]。除草剂经常大量喷洒在农田上，然而，这表现出了诸如空气、水和土壤污染等各种问题，并提高了杂草对此类化学品的抗性[2]。如果除草剂的使用率保持不变，在不久的将来，杂草将对这些产品产生完全抗性，并最终破坏收成[5]。这就是为什么杂草和作物控制管理现在正成为一个重要的研究领域[6]。

自动作物监测系统是一种实用的解决方案，既经济又环保。这样的系统可以通过使用机器人除草来减少劳动力成本，从而减少除草剂的使用[7]。自动杂草控制系统的首要步骤是检测和绘制田间杂草，这是一个具有挑战性的部分，因为杂草和作物通常具有相似的颜色、纹理和形状[4]。使用无人机（UAV）通过收集覆盖整个农田的RGB图像（[8-12]）或多光谱图像（[13-17]），在绘制农田杂草密度图方面取得了显著成果。当无人机在高空飞越农田时，捕获的图像覆盖了很大的地面面积，这些大图像可以分割成更小的块，以便于处理（[18-20]），然后再将其输入学习算法，以识别和分类作物中的杂草。

在农业领域，植物检测的主要方法是首先使用分割从图像背景中提取植被，然后将作物与杂草区分开来[21]。常见的分割方法使用多光谱信息将植被与背景（土壤和残余沉积物）分离[22]。然而，即使使用光谱信息，杂草和作物也很难区分，因为它们有很强的相似性[23]。[6]中也强调了这一点，其中作者报告了利用光谱和空间特征识别作物杂草的重要性。在传统的机器学习方法中，特征是手工绘制的，然后使用支持向量机（SVM）等算法来生成判别模型。例如，[24,25]中的作者使用这种方法检测土豆田中的杂草。关于这类杂草检测方法的文献综述见[26,27]。

经典的机器学习方法依赖于特征工程，在特征工程中必须设计特征提取器，该提取器通常在小型数据库上表现良好，但在大型和多样的数据上失败。相比之下，深度学习（DL）方法依赖于学习特征提取器，与传统方法相比表现出更好的性能。因此，DL成为图像分类、目标检测和识别的重要方法[28,29]，尤其是在农业领域[30]。具有基于卷积神经网络（CNN）架构的DL模型已应用于各个领域，因为它们为图像分类和目标检测任务提供了高精度[31-33]。CNN在图像上使用卷积滤波器来提取重要特征，以了解图像中感兴趣的对象，并借助卷积操作，包括关键属性，如局部连接、参数（权重）共享和平移方差等[28,34]。许多涉及杂草检测或分类的论文都使用了基于CNN的模型结构[35-37]，如AlexNet[32]、VGG-19、VGG-16[38]、GoogLeNet[39]、ResNet-50、ResNet-101[33]和Inception-v3[40]。

另一方面，注意力机制发展迅速，尤其是在自然语言处理（NLP）[41]方面，与前一代模型相比，表现出了令人印象深刻的性能提升[42]。在视觉应用程序中，由于图像中的像素数远远大于NLP应用程序中的单词单位数，因此计算成本较高，注意力机制的使用受到了很大限制。这使得无法将标准注意力模型应用于图像。关于Transformer网络在计算机视觉中应用的最新调查，见[43]。最近提出的视觉Transformer（ViT）似乎是朝着将Transformer注意力模型用于计算机视觉任务的方向迈出的重要一步[44]。其中，图像patch被视为训练的信息单位，而基于CNN的方法在图像像素级别上操作。ViT将图像patch合并到共享空间中，并使用自我注意模块学习这些patch之间的关系。考虑到大量的训练数据和计算资源，ViT在图像分类精度方面超过了CNN[44]。对于高分辨率无人机图像的杂草和作物分类任务，尚未探索视觉Transformer模型。据我们所知，目前还没有研究对他们完成这项任务的潜力进行过检验。

本文提出了一种使用视觉Transformer方法自动识别无人机图像中杂草和作物的方法。我们建立了一个用无人机和高分辨率相机采集系统。这些图像是在现实世界条件下，在不同作物的地块上拍摄的：红叶甜菜、绿叶甜菜，欧芹和菠菜。主要目标是研究变压器架构的范例，用于特定任务，如无人机图像中的植物识别，其中标记数据不可用。数据增强和迁移学习被用作填补标记数据空白的策略。为了通过视觉Transformer评估自我注意机制的性能，我们在交叉验证方案中波动了用于培训和测试的数据比例。贡献总结如下：

基于无人机和作物管理自我关注算法的低空航空图像。
首次研究探索Transformer在杂草和作物图像分类中的潜力。
在作物分类任务中，评估深度学习算法在训练集约简方面的泛化能力。

论文的其余部分组织如下：第2节介绍了使用的材料和方法，并简要描述了自我注意机制和视觉变换器模型架构。第3节和第4节介绍了实验结果和分析。我们在第5节讨论了结果。第6节总结了我们的研究并提供了一些观点。

2. Materials and Methods

本节概述了使用安装在无人机上的高分辨率相机获取的数据集的获取、准备和标记，并描述了这两个方面：自我注意范式和视觉变换器模型架构。

2.1. Image Collection and Annotation

研究区域由位于法国卢瓦尔河谷中部的甜菜、欧芹和菠菜作物田组成。这是一个高度农业区，因为它具有许多土壤气候优势：该地区降雨量有限，粘土石灰岩土壤具有良好的过滤能力。95%的地块也提供灌溉，从而实现受控的水条件。
为了调查研究区域“星际狂暴”，朝圣者无人机配备了索尼ILCE7R，3600万像素摄像头，如图1所示。该摄像头使用3轴稳定无刷万向节安装到无人机上，以便即使在强风中也能保持相机轴的稳定。无人机飞行高度分别为甜菜田30米和欧芹和菠菜田20米。选择这些高度是为了最小化无人机飞行时间，同时保持足够的图像质量。甜菜植株越发达，选择的海拔越高。根据地面专家报告的杂草水平，在不同的时间对这3个田地进行了航空图像采集。由于甜菜地被晨雾笼罩，而香菜地和菠菜地则在阳光明媚的天气条件下飞行，因此多日采集图像会增加图像的可变性。

无人机遵循特定的飞行计划，相机定期拍摄RGB图像，如图2和图3所示。拍摄的图像的最小纵向和横向重叠分别为70%和50-60%，具体取决于野外植被覆盖率和均匀性，确保4公顷（40000平方米）的整个区域更好、完整地覆盖，并提高该区域正射影像的准确性。

使用注释工具LabelImg(https://github.com/tzutalin/labelImg，于2021年9月7日访问）在正射校正图像的瓷砖上手动处理数据。杂草和作物使用边界框进行注释，边界框可能有各种大小，并包含感兴趣对象的一部分。我们从边界框中提取作物和杂草图像补丁。然后，将图像补丁大小调整为64×64像素。之所以选择此图像尺寸，是因为边界框的尺寸以64×64像素为中心，这可能与无人机的飞行高度和研究领域中观察到的作物大小成比例相关。将面片调整为平均边界框尺寸也会限制输入图像中的宽度和高度扭曲。我们将作物和杂草标签分为5类，如图4所示。我们为每种研究作物都设置了一个类，一个总体杂草类和一个非类型绿叶甜菜类。

2.2. Image Preprocessing

手动图像标记是一项非常耗时的任务，这意味着巨大的人工成本，因此，我们将每个作物和杂草类别的手动标记限制为4000个样本。离型绿叶甜菜没有其他4类甜菜表现得好，只有653个标记样本。为了解决这个类的不平衡，我们通过执行随机翻转和旋转，将非类型甜菜类的样本增加了四倍，最多达到3265个样本。数据集分布了16.9%的非类型甜菜植物，表1所示的其他四类甜菜植物的图像分布率为20.8%，共有19265张图像，大小为64×64。

图像被重新缩放到0–1范围，然后通过缩放像素值使其具有零平均值和单位方差进行标准化，然后再划分为训练集、验证集和测试集。

在培训阶段，我们采用了数据增强策略来丰富数据集，因为它在深度学习中发挥着重要作用[45]。应用的增强可以归结为随机调整大小的裁剪、颜色抖动和随机增强[46]。此技术是使用Keras ImageDataGenerator实现的，可以动态生成增强图像。数据增强用于帮助提高模型的鲁棒性以及通过扩展培训数据集和模拟真实的农业场景来实现推广能力，因为它们可能因土壤、环境、季节和气候条件而变化很大。

2.3. ViT Self-Attention

注意机制正在成为深度学习领域的一个关键概念[47]。注意力是由人类的感知过程激发的，在这个过程中，人类往往专注于信息的一部分，同时忽略了信息的其他可感知部分。注意机制对自然语言处理领域产生了深远的影响，该领域的目标是关注重要单词的子集。自我注意范式是从表示深层网络性能改进的注意概念中产生的[42]。

让我们用表示n个实体（x1，x2，…，xn）的序列，其中d是表示每个实体的嵌入维度。自我注意的目标是通过根据全局上下文信息对每个实体进行编码来捕获所有n个实体之间的交互。这是通过定义三个可学习的权重矩阵Queries（WQ∈ Rn×dq），键（）和值（）。输入序列X首先投影到这些权重矩阵上，得到。

其中σ是一个激活函数，通常为softmax()。为了捕捉输入序列之间的关系，V值由方程（1）中的分数加权。导致[44]，

其中dk是输入查询的维度。

如果将特征地图中的每个像素视为随机变量并计算协方差，则可以根据每个预测像素与图像中其他像素的相似性来增强或减弱其值。在训练和预测中使用相似像素而忽略不同像素的机制称为自我注意机制。
它有助于将单个图像补丁序列的不同位置联系起来，以获得整个图像的更生动的表示[48]。
等式（2）,Transformer网络是基于多头注意力操作的注意力机制的扩展。它基于并行运行k个称为“heads”的自我关注操作，并投射其串联输出[42]。这有助于Transformer共同关注来自每个头部的不同信息。输出矩阵是通过将每个注意头与加权WO的点积串联而得到的。因此，生成多头注意层的输出。整体操作总结如下[42]。

其中，、、分别是查询、键和值以及的权重矩阵。

通过使用自我注意机制，可以在模型的训练和预测过程中实现全局参考。这有助于减少模型的大量训练时间，以实现高精度[44]。自我注意机制是一个整体transformers组件，它显式地为结构化预测任务的序列的所有实体之间的交互建模。基本上，自我关注层通过从完整的输入序列中聚合全局信息来更新序列的每个组件。而卷积层的感受野是一个固定的K×K邻域网格，自我注意的感受野则是完整的图像。与CNN相比，自我注意机制增加了感受野，而不增加与非常大的内核大小相关的计算成本[49]。此外，自我注意对输入点数量的排列和变化是不变的。因此，与需要网格结构的标准卷积相反，它可以轻松地对不规则输入进行操作[43]。

所有头部的平均注意力权重是指跨层的头部和同一层的头部。基本上，Transformer中的每个区域都有注意力，这称为注意模式或注意矩阵。当杂草图像的补丁通过变压器时，它将为图像补丁生成注意力权重矩阵（见图5）。例如，当补丁1通过变压器时，自我关注将计算应该对其他人（补丁2、补丁3…）给予多少关注。此外，每个头部都有一个注意模式，如图6所示，最后，他们将总结所有注意模式（所有头部）。我们可以观察到，模型试图识别图像上的对象（杂草），并试图将注意力集中在它身上（因为它从背景中脱颖而出）。
应用了一种注意机制，以选择性地将图像的某些位置与其他位置相比更加重要，从而生成与图像相对应的字幕。此外，因此，这有助于关注图像中杂草和作物之间的主要差异，并改进模型的学习，以识别这些植物之间的对比。这种机制还有助于模型更快地学习特征，并最终降低培训成本[44]。

2.4. Vision Transformers

变压器模型是NLP的主要进展。它们成为现代NLP任务的标准，与前一代最先进的模型相比，它们带来了惊人的性能收益[42]。最近，它被回顾并引入计算机视觉和图像分类，旨在表明在目标检测或图像分类中不再需要依赖CNN，直接应用于图像补丁序列的纯变换器可以很好地执行图像分类任务[44]。
图7显示了本文中用于杂草和作物分类的视觉变压器的结构。它基于Dosovitskiy等人[44]首次开发的ViT模型。模型体系结构由7个主要步骤组成。首先，将输入图像分割成较小的固定大小的面片。然后将每个面片展平为一个一维向量。输入序列由大小为16×16的patch的像素值的平坦矢量（2D到1D）组成。

对于输入图像，

创建面片大小为P、N的图像面片

其中，N是与句子单词相似的序列长度（标记），（H，W）是原始图像的分辨率，C是通道数[44]。

然后，将每个展平的元素馈入一个线性投影层，该层将产生所谓的“嵌片”。有一个单独的矩阵，表示为“E”（嵌入），用于线性投影。取一个补丁，首先展开成一个线性向量，如图8所示。然后将该向量与嵌入矩阵E相乘。然后将最终结果与位置嵌入一起输入变压器。在第四阶段，位置嵌入被线性地添加到图像补丁序列中，以便图像能够保留其位置信息。它注入关于序列中图像补丁的相对或绝对位置的信息。下一步是根据图像补丁的位置将额外的可学习（类）嵌入到序列中。该类嵌入用于预测通过自我注意更新后的输入图像的类。最后，通过将多层感知器（MLP）头堆叠在变压器顶部，即添加到序列中的额外可学习嵌入位置，来执行分类。

3. Performance Evaluation

        我们使用了ViT-B32和ViT-B16模型以及EfficientNet和ResNet模型的最新实现。这些算法是使用Python 3.6.9在Tensorflow 2.4.1和Keras 2.4.3框架之上构建的。为了运行和评估我们的方法，我们使用了以下硬件；在Linux操作系统Ubuntu 18.04 LTS（64位）下，一个Intel Xeon（R）CPU E5-1620 v4 3.50 GHz x 8处理器（CPU），内存16 GB，一个图形处理单元（GPU）NVIDIA Quadro M2000，内部内存4 GB。
        所有模型都使用相同的参数进行训练，以便对其性能进行无偏见和可靠的比较。初始学习率设置为0.0001，折减系数为0.2。批次大小设置为8，模型经过100个周期的训练，在等待10个周期后提前停止，但分数没有提高。使用的模型ViT-B16、ViT-B32、EfficientNet B0、EfficentNet B1和ResNet 50从keras库加载，预先训练的权重为“ImageNet”。
        我们限制了基于ViT的模型与ResNet和EfficientNet CNN架构的比较，因为它们是广泛使用的CNN架构，并且已经应用于各个研究领域。更具体地说，ResNet架构[33]是第一个引入剩余块的CNN架构。其中，剩余块在层之间使用跳跃连接，为梯度反向传播提供替代路径，从而提高精度。我们为剩余架构选择了ResNet-50版本，该版本使用3层构建块，与ResNet-34中使用的2层构建块相比，产生了更好的结果。考虑的第二个CNN架构是EfficientNet架构[50]，EfficientNet神经网络家族的特殊性在于，它具有高度优化的参数，并根据所用网络的版本产生等效或更高的Top-1结果。

3.1. Cross-Validation

        实验采用交叉验证技术进行，以确保模型的完整性和准确性。交叉验证是一种广泛用于评估模型的技术，因为性能评估是在未发现的测试数据上进行的[51]，该方法还具有作为低偏差重采样方法的优点[52]。
        由于我们的数据集类不是完全平衡的，我们应用了分层K-Fold。通过应用分层，每个随机取样的褶皱相对于总数据集分布将具有相等的类别分布。然后，从这些折叠中，我们使用k折叠交叉验证来测试模型的性能，将k折叠作为验证集。
        为了评估ViT模型相对于选定CNN架构的性能，我们执行了3个工作流。首先，我们使用一个验证集（k=1）执行交叉验证，以最大化训练数据集的大小，并在固定测试次数下评估性能（见图9）。其次，我们减少了训练次数，增加了验证集的大小，同时保持了相同的测试次数。最后，我们减少了训练次数，同时保持单个验证次数（k=1）并增加测试集的大小，以评估在小数据集上训练时模型的预测性能。

使用分层五倍交叉验证，将k倍作为验证集（其中1≤ k≤ 4），图10显示了数据集如何以n=5和k=2进行分割，其中n表示交叉验证折叠的总数，从而训练了10个模型。
增加k的值会减少用于训练的折叠次数，从而迫使模型在较小的数据集上训练。这有助于评估模型在减少的训练数据集上的性能以及从较少的图像样本中提取特征的能力。
列车验证的组合（分割）次数如下：

其中，n是文件夹的数量，k是验证折叠的数量。

对于第三个工作流，我们进行了三个实验。每次实验都会增加测试图像的数量，从而减少训练图像的数量。在实验1中，数据集被分成9633张训练图像和6421张测试图像。
在实验2中，将数据集分为6422张训练图像和9633张测试图像。
实验3仅包含3211个训练图像，12843个测试图像。然后使用交叉验证技术对每一组实验进行培训（见图11）。

3.2. Evaluation Metrics

在收集的数据集中，每个图像都被手动分类为以下类别之一：杂草、离型甜菜（绿叶甜菜）、甜菜（红叶）、欧芹或菠菜，称为地面真实数据。通过在测试集上运行分类器，我们获得了每个测试图像的标签，从而得到预测的类。分类性能是通过评估基本真值标签与预测真值标签之间的相关性来衡量的，预测真值真阳性（TP）、假阳性（FP）和假阴性（FN）的分类概率。然后，我们计算了一个召回测度，表示模型正确预测所有基本事实类的程度，以及一个精度，表示有多少正面预测相对于所有正面预测是正确的。

评估程序中使用的指标是准确度、召回率和F1Score[53]，后者是准确度和召回率的加权平均值，因此同时考虑了误报和漏报。比较研究表明，这些指标与评估分类模型性能相关[54]。
这些指标也被选为与准确性相反的指标，它们与类别分布无关。这种不变性是由于在计算精度和召回率时只考虑TP而不考虑TN预测[55]。如果不考虑TN，有时会在特定的分类任务中产生问题，其中TN在某些领域具有重大影响。在我们的农业应用中，情况并非如此，因为TN的一个例子是预测作物样本作为杂草，当它更为理想时不把杂草归类为作物。换句话说，过度检测杂草比检测不足要好。

由于我们使用交叉验证技术来评估每个模型的性能，因此我们计算了模型F1得分的平均值（µ）和标准偏差（σ），以便对其性能进行平均概述。使用的方程式如下：

其中N是交叉验证程序生成的拆分数。例如，如图9所示，使用等式（7），保留一个生成五个分割（N=5）。对于损失度量，我们使用了真实类和预测类之间的交叉熵损失函数。

4. Results

基于CNN的架构、ResNet和EfficientNet按照ViT-B16和ViT-B32进行培训，以比较它们在我们的客户数据集上的性能，该数据集包括5个类别（杂草、甜菜、非类型甜菜、欧芹和菠菜）。所有模型都使用了五倍交叉验证法进行了培训，只留下一项技术。利用这项技术，使用12844个样本（66.6%）训练模型，3211个样本（16.7%）验证模型，3210个样本（16.7%）测试模型。在第30纪之后，模型的精度和损失趋于平缓。表2列出了所考虑模型的F1平均得分和损失。

从这些实验结果中，我们注意到，与CNN模型相比，ViT模型的表现更佳，ViT B-16模型的F1得分最高为99.4%，尽管ViT B-32模型的性能非常接近99.2%，最小损失为0.656。EfficientNet和ResNet模型与ViT模型相比落后，但得分较高，在大型数据集（12844张训练图像）上接受过训练。实验结果证实，与[44]所提出的最先进的模型ResNet和EfficientNet相比，视觉变压器具有高性能。尽管所有网络族都获得了高精度和F1分数，但使用视觉变压器对作物和杂草图像进行分类的预测性能最好。

Inflfluence of the Training Set Size

在下一阶段，我们试图回答以下问题：哪一个网络系列使用较小的训练数据集产生最佳性能。我们做了五折交叉验证去掉了k，其中k是从1到4的一个可变参数，同时将测试集保持为3210个图像，以评估模型的性能。

改变训练图像的数量对训练的ViT模型的性能有直接影响，如表3所示。通过五倍交叉验证获得的结果是有希望的，将两个作为验证集（k=2），F1平均得分为99.28%，标准偏差为0.1%，表明ViT B-16模型的性能略有下降，同时减少了训练图像的数量。我们注意到，仅使用数据集的2/5（6422个图像，k=3）进行训练，并在剩余的3/5上进行验证时，ViT B-16模型的精度略微下降了0.1%。k=4时，使用3211个图像的较小数据集训练ViT B-15模型（减少75%），其性能如预期般下降，但总体精度仅为99.63%，下降幅度很小，仅为0.44%。这些实验结果显示了视觉变换器模型在小数据集和传递学习中的表现。

我们还比较了ViT B-16模型与基于CNN的模型ResNet和EfficientNet的性能，并减少了训练图像的数量。图12显示了他们F1分数的实验结果。我们注意到，随着训练图像数量的减少，ResNet50、EfficientNet B0和EfficientNet B1的F1分数减少。相比之下，ViT B-16模型在一组实验中保持了其高性能，特别是使用最少的训练图像，F1得分达到99.07%。另一方面，ResNet 50得分为97.54%，EfficientNet B0得分为96.53%，EfficentNet B1得分最差为95.91%。EfficientNet B1的性能下降幅度最大，为3.07%（从98.98%（12844张训练图像）下降到95.91%（3211张训练图片）。尽管EfficientNet B1在使用最大数据集（98.98%的准确率）时取得了比EfficicentNet B0（98.78%）更好的结果，但在使用最小的列车数据集时，其性能下降最多。虽然ResNet和EfficientNet B0和B1的F1分数随着训练图像减少25%而下降（从12844个图像减少到9633个图像），但ViT B-16模型仍达到99.28%的高性能（从99.44%略有下降）。这些实验结果表明，在处理小型训练数据集时，视觉变换模型在农业图像分类方面优于当前基于CNN的模型ResNet和EfficientNet。

此外，我们通过改变测试图像的数量，同时使用5倍保留一个折叠交叉验证技术，将模型的性能与进行了比较。表4中报告了每个类别的ViT结果。可以观察到，随着列车组的减少和测试集的增加，性能略有下降，这表明随着数据集大小的变化，ViT具有良好的稳定性。如图13所示，在对9632和12843张图像进行测试时，四种模型的F1得分显著下降，而训练仅占标记数据集的33.3%和16.7%。在第三个实验中，模型只在3211张图像上训练，也在3211幅图像上验证，这解释了它们性能的下降。尽管随着测试图像数量的增加，所有模型的F1分数都有所下降，但ViT B-16模型仍然比EfficientNet B0、EfficientNet B1和ResNet50实现了更高的性能。ViT B-16-模型的性能下降最小，从99.44%（从3210个测试图像和12844个训练图像）降至98.63%（从12844个测试图像到3211个训练图像。

5. Discussion

本研究旨在部署和分析基于无人机的杂草和作物识别系统背景下的自我关注深度学习方法。分类模型在我们的航空图像数据集上进行评估，以选择最佳结构。如前所述，与CNN架构相比，ViT B-16架构实现了更好的性能。这一观察结果表明，自我注意机制可能对杂草识别更有效，因为图像块被解释为信息单元，而基于CNN的模型通过卷积层提取信息。通过自我注意将图像解释为信息单元的另一个观察到的优点是，视觉转换模型性能稳定，同时减少了训练样本的数量，增加了测试样本的数量。

        在第一个工作流程中，所研究的所有模型都达到了高精度和F1分数，这表明每个类有足够数量的示例，性能上的差异并不显著，并且差异可能是由于实验所用的数据集造成的。不幸的是，根据所研究的作物，创建足够大的数据集以供无人机识别杂草可能很困难。种植者必须迅速将杂草从田间清除，而无人机获取航空图像的成本可能很高，这取决于传感器和拍摄区域。
        为了应对这一困难，并为了优化未来的数据采集凸轮组。我们减少了培训样本的数量，增加了验证样本的数量（工作流2）。减少训练图像的数量，同时增加验证样本的数量，将迫使模型提取图像的一般特征，并使用大量验证样本跟踪其训练进度。如图12所示，CNN模型的性能与训练样本数成正比，而ViT的性能更稳定。此外，使用自我注意机制预测的每个班级的F1分数在所有五个班级中仅略微均匀下降，而不仅仅在特定班级中下降（表3）。除了减少训练样本外，在工作流3中，我们还增加了测试样本的数量，并保持了固定数量的验证样本。将测试样本数从3210个增加到12843个未发现样本，可以模拟模型的行为，就像在生产推断中一样，因为测试集越大，它就越具有代表性。在这个实验设置中，如图13所示，ViT B-16模型也保持了稳定的度量分数，因为CNN的减少越多，测试样本的数量就越多。
        我们已经表明，应用于我们用于杂草识别的五类农业数据集，基于ImageNet数据集预先训练的ViT B-16体系结构优于其他体系结构，并且对数据集中不同数量的样本更为稳健。ViT在杂草分类中的应用表明，对于数量有限的类别，结果令人满意。在未来的实验中，我们将添加额外的类以涵盖更多的作物类型。增加额外的分类可能会降低分类前1的得分，尤其是在对形状和颜色相似的植物进行分类时。但由于ViT被证明更加稳健，因此仍应比CNN产生更好的结果。
数据集的获取和准备也有一些限制。
        首先，使用的数据增强量很大，特别是对于非类型甜菜类，其中在训练增强之前应用了旋转增强。另一方面，在训练期间执行的其他增强通过转换样本来促进模型收敛和泛化，例如，这些样本可以表示室外亮度的不同变化。当图像采集条件与每次形成的增强相似时，这可以确保模型的泛化能力。如果图像采集条件非常不同，模型可能会失去分数，一个最重要的环境变化可能是雨后拍摄植物，在雨后拍摄的植物与拍摄阳光时的植物没有相同的活力/形状。因此，计划在下一季进行额外的图像采集，以解决这些不同的情况。

6. Conclusions

在本研究中，我们通过ViT（视觉变换器）模型使用自我注意范式来学习和分类无人机在甜菜、欧芹和菠菜田采集的定制作物和杂草图像。利用该数据集获得的结果表明，在农业问题中使用具有转移学习功能的视觉变换器是一个很有前景的方向。与当前最先进的基于CNN的模型（如ResNet和EfficientNet）相比，基本ViT模型因其高精度和低计算成本而优于其他模型。此外，ViT B-16模型以其高性能被证明更好，特别是在其他模型无法达到如此高精度的情况下，其训练数据集较小。这显示了无卷积的ViT模型如何将图像解释为一系列补丁，并通过标准变压器编码器对其进行处理，使用自我注意机制，学习杂草和作物图像之间的模式。值得一提的是，当前研究的某些发现并不支持以前的一些研究，其中表明变压器仅在使用大型数据集时性能更好。使用小数据集获得的高性能可能是由于类的数量较少、迁移学习和数据增强。在这方面，我们得出结论，视觉变换器的应用可以绕过经典的基于CNN的模型，改变农业图像分类应用中处理视觉任务的方式。尽管取得了这些有希望的结果，但仍存在一些问题，例如在图像采集条件（分辨率、亮度、植物发育阶段等）发生重大变化后，视觉变换器在识别任务中的可行性，以及大量植物类别等。应进一步研究这些方面。在未来的工作中，我们计划在目标检测体系结构中使用视觉变换分类器作为主干，以定位和识别无人机正射影像上不同采集条件下的杂草和植物。

【论文阅读】Transformer Neural Network for Weed and Crop Classification of High Resolution UAV Images

Abstract

1. Introduction

2. Materials and Methods

2.1. Image Collection and Annotation

2.2. Image Preprocessing

2.3. ViT Self-Attention

2.4. Vision Transformers

3. Performance Evaluation

3.1. Cross-Validation

3.2. Evaluation Metrics

4. Results

5. Discussion

6. Conclusions

猜你喜欢