【技术】一种基于YOLOv5的高分遥感影像目标检测方法|算法

Shirushi Coin中文网

【技术】一种基于YOLOv5的高分遥感影像目标检测方法|算法

发布日期：2025-01-22 14:13 点击次数：177

　　一种基于YOLOv5的高分辨率遥感影像目标检测方法宋爽爽1, 肖开斐1, 刘昭华1, 曾昭亮21.江西理工大学土木与测绘工程学院,赣州 3410002.中国气象科学研究院灾害天气国家重点实验室,北京 100081摘要:高分辨率遥感图像在拍摄过程中包含了丰富的数据信息,使得目标与背景之间的差异减小,导致在检测目标时精度达不到所需要求,降低了目标检测的性能。基于YOLO深度学习算法,结合端到端坐标注意力(coordinate attention, CA)和轻量级网络模块GhostConv设计了一种轻量级网络模型GC-YOLOv5。CA沿水平和垂直方向分别对每个通道进行编码,使得注意力机制模块能够同时捕获具有精确位置信息的远程空间交互,并帮助网络更准确地定位感兴趣的目标。使用GhostConv模块代替原有的普通卷积模块(convolutional-batchnormal-SiLu,CBS),降低特征通道融合过程中的参数数量,减小最优模型的大小。使用公开的NWPU-VHR-10数据集进行了实验并在RSOD数据集上验证了模型的稳健性。结果表明,在NWPU-VHR-10数据集上的检测精度达到了96.5%,召回率达到了96.4%,mAP达到了97.7%。在RSOD数据集上也取得较好的效果。0 引言近年来,高分辨率遥感影像中涉及的地面区域广泛、包含丰富的数据信息,其空间分辨率较高,能够提供更为细致的地物信息,可以清晰地识别城市中的建筑物、道路、绿地等细节,甚至可以区分不同树种的森林类型,因此在检测所需目标的过程中会遇到一些困难。目标检测是在遥感影像中检测所需目标的具体位置以及判断目标的类别。由于遥感影像包含许多背景信息,这使得高分辨率遥感图像中目标检测更加不准确[1]。因此,针对高分辨率遥感图像中目标检测精度、召回率和均值平均精度(mean average precision,mAP)较低问题,本文提出了一种基于YOLO网络模型的目标检测方法。目标检测算法主要有基于区域的卷积神经网络(region-based convolutional network method,R-CNN)系列[2⇓-4]算法、YOLO系列[5⇓⇓⇓-9]、单次多框检测(single shot multibox detector,SSD)[10]算法等。YOLO系列的目标检测算法在检测速度上相比于其他算法普遍较快,尤其在小目标检测方面具有很好的效果。Lamane等[11]提出了改变参数设置、不同结构和配置以及YOLOv5各个模型的热图图像检测对比实验; Puliti等[12]提出了一种基于YOLO-CNN架构的无人机图像物体检测方法,自动识别树木并根据雪的损伤对其进行分类; Li等[13]实现了YOLOv3,YOLOv4和YOLOv5模型在探地雷达图像隐蔽裂缝检测上的对比实验,得到YOLOv4模型比YOLOv5模型表现出更好的鲁棒性,可以准确地区分隐蔽裂缝和伪裂缝; Wang等[14]提出了一种用于高分辨率光学遥感图像,能够同时利用特征金字塔网络(feature pyramid network,FPN)和路径聚合网络(path aggregation network,PANET)特性的多检测头方法以及一种轻量级混合注意力模块的YOLO-HR网络; Qu等[15]在YOLOv3模型用距离交并比(distance intersection over union,DIoU)作为损失函数加快训练速度,加入卷积块注意力块(convolutional block attention module,CBAM)增强特征信息,特征金字塔改为自适应特征融合(adaptively spatial feature fusion,ASFF)以提高检测速度。Qi等[16]提出了在YOLOv5模型中增加挤压和激励注意力机制(squeeze-and-excitation network,SE)模块,实现了关键特征的提取,其准确率为91.07%,远高于R-CNN,SSD和YOLOv5模型的精度; 由Bao等[17]提出的BC-YOLO模型在无人机遥感影像上的检测精度和召回率分别达到86.2%和86.7%。尽管目前已经有许多检测方法,但这些原始检测方法的性能已经开始下降,这是导致原始检测方法在高分辨率遥感图像目标检测中检测精度较低的原因之一。因此,目标的检测与识别变得具有挑战性。为了解决上述问题,本文采用了高分辨率遥感影像,利用YOLOv5算法在目标检测方法上进行了研究。本文的目的是结合注意力机制网络设计一种轻量级[18]的网络模型,用于高分辨率遥感影像中目标的检测,提升检测速度和精度。YOLOv5是一种基于单阶段(one-stage)目标检测算法,具有较快的检测速度和较好的检测精度。YOLOv5采用了FPN和跨尺度预测技术,被广泛应用于各个领域的目标检测任务[19],因此可以有效处理高分辨率遥感影像中的目标多尺度问题。此外,YOLOv5还具有较强的实时性,适合在资源受限的遥感应用场景中使用。为了提高高分辨率遥感图像目标检测的精度和速度,本文提出了一种基于YOLOv5的轻量级检测模型GC-YOLOv5,在已有的YOLOv5算法中引入了轻量GhostConv模块[20]和提取关键特征的坐标注意力机制(coordinate attention, CA)模块[21]。本文借助于NWPU-VHR-10数据集[22-23]和RSOD数据集[24],将该模型应用于高分辨率遥感影像的目标检测。1 研究方法1.1 设计思路本文以YOLOv5算法为基础对模型进行设计,该算法引入坐标注意力机制和轻量级网络,能够提高目标的检测精度,降低训练模型的大小,并提高模型的训练效率,提高计算资源的利用率。本文方法的流程如图1所示。主要分为模型训练和模型测试2个阶段。首先从数据集公开平台获取遥感影像数据集并划分数据集; 其次,利用本文方法进行网络训练,利用训练好的模型对测试集样本进行检测; 最后,判断测试结果是否符合试验要求,如果不符合实验要求,则调整预训练参数重新训练,得到优化的物体检测模型。1.2 改进的GC-YOLOv5网络架构YOLOv5是由Jocher[25]提出的一种单阶段目标检测方法,通过直接回归候选框的相对位置来定位和分类目标。它现在已经是一个成熟的检测网络,在数据预处理、特征提取和特征融合方面进行了各种改进,大大提高了网络的检测精度。本文中,输入的图像尺寸为1 280像元×1 280像元,选取了YOLOv5s6模型作为基准并在此基础上进行了改进,利用YOLOv5在目标检测中的优势,对其改进使模型更适应遥感影像中目标的检测,提出一种GC-YOLOv5方法。YOLOv5网络的核心模块主要包含普通卷积模块(convolutional-batchnormal-SiLu,CBS)、New CSP-Darknet53(C3)模块(包括C3_1、C3_2模块)、Spatial Pyramid Pooling-Fast(SPPF)模块和CSP-PAN模块。该算法在骨干网络(backbone network)阶段对输入的图像像素和目标的位置实现匹配,完成特征提取; 在颈部网络(neck network)阶段将提取出的特征进行自下而上的上采样(Up),并将其相同尺寸大小的网络层特征进行拼接融合(Concat); 最后在头部网络(head network)根据特征记忆将特征进行标准卷积(Conv)并检测(Detect)图像中的目标。随着网络层数的增多,应增强特征提取从而提升目标检测的精度和速度; 但是这样会造成网络的计算负担,继而降低检测速度。针对这一问题对网络模型做出了改进,图2为改进后的网络模型结构(GC-YOLOv5),红色部分为修改的模块。针对网络模型的计算量和检测速度问题,在网络模型的颈部网络使用GhostConv模块代替原本的CBS模块,通过降低卷积的维度减少模型的参数数量,从而减少计算量; 之后为保证模型的精度,在骨干网络层引入了CA模块以增强骨干网络层的图像特征,使网络更加专注于感兴趣的目标,加强目标的识别能力,两者相互结合后既提升了模型的精度,又减少了模型参数的计算量。1.3 Backbone改进传统的注意力机制,如SE[26]和CBAM[27]只考虑了局部区域信息,都忽略了位置信息对目标的重要性。而CA通过坐标信息嵌入和坐标注意力生成来编码通道关系和具有精确位置信息的远程依赖关系。图3为CA运算结构,X Avg Pool和Y Avg Pool分别指一维水平全局池化和一维垂直全局池化,C,H和W分别表示输入的通道、高和宽,r为用于控制SE块中的块大小的缩小比,Residual表示残差,BN表示正则化,Non-linear表示非线性函数,Re-weight表示将输出重新作为权重。1.4 Neck改进如图4所示,GhostConv模块通过将传统的卷积运算与廉价的线性运算相结合,充分利用特征提取与特征映射冗余特性之间的关系,减少了模型的参数量和浮点计算,同时确保了检测性能。GhostConv模块采用普通卷积层生成少量的特征图,利用廉价的线性运算增强特征,增加通道数。图4普通卷积运算和GhostConv卷积模块运算2 实验2.1 数据集本文使用公开的数据集NWPU-VHR-10和RSOD,如图5所示。NWPU-VHR-10数据集中的所有图像来自于高分辨率卫星影像,提取自Google Earth和Vaihingen,总共有800张图像,包含飞机、油罐、船、操场、篮球场、网球场、码头、棒球场、汽车和桥梁等主要类别。由于数据集中150张图像没有目标,因此选取有目标的650张图像在模型中进行测试。RSOD数据集提取自Google Earth和Baidu Map,总共976张图像,包含了飞机、油罐、操场和立交桥等主要类别。本文中使用MakeSense在线工具对数据集进行了重新标注,生成以txt为后缀的标签文件。之后,分别将2个数据集以7∶1.5∶1.5的比例划分为训练集、验证集和测试集。2.2 实验环境本文的实验在Windows11系统上进行工作,实验平台为Google Colaboratory,使用的是谷歌云端硬盘,含有GPU。实验环境的配置如表1所示。表1实验环境配置网络模型的实验训练参数如表2所示。神经网络优化器(neural network optimizer)、批次大小(batch size)、学习率(learning rate)、动量参数(momentum parameter)、权重衰减(weight decay)为算法中默认值。训练轮数(training epochs)根据实验结果的拟合度设定,初始值为400,经过训练后,数据训练到200轮次时便达到拟合状态,便设定训练轮数为200进行训练。表2实验训练参数2.3 评估指标为了验证GC-YOLOv5模型的性能,本文用精度、召回率、均值平均精度(mean average precision,mAP)和模型的检测速度(frames per second,FPS)作为评估指标。精度表示正样本中被预测为正值的数量与正样本的比。召回率表示检测到的真实的正样本与正样本的比。3 结果和分析3.1 各个网络模块对模型性能的影响为了验证每个方法对模型的影响,本文通过在网络模型逐个加入2种网络模块用于分析其对网络模型性能的影响,各个网络模块对模型的精度和[email protected]值所产生的影响如图6所示。表3为方法性能测试实验结果,表格记录了每个方法加入到网络中的精度、速度等数值,性能最优数值加粗表示。图中可以直观地看出本文提出的模型在训练期间产生的波动幅度较小,具有良好的拟合度。训练前期,模型的收敛速度快,训练100轮后,模型的精度和mAP值在后面超越了YOLOv5算法模型,曲线逐渐趋于平缓。根据表3可知,在网络结构中添加了基于坐标的注意力机制CA后,模型的召回率值提高3.1个百分点,[email protected]值提高0.6个百分点; 模型的参数数量增加了0.02×106个,权重文件大小增加1.3 MB,FPS提高了10.11 幅/s。使用轻量化GhostConv网络模块后,对网络结构的参数数量和检测速度的影响较大,模型的精度值提高0.3个百分点,参数数量减少了2.67×106个,权重文件大小减小了5.1 MB,FPS提高了6.97 幅/s。2种方法结合后,经过训练,模型的性能比原始模型更为稳定,结果表明GC-YOLOv5模型的精度、召回率、mAP值均优于YOLOv5模型,精度提高3.65%,召回率增长4.21%,[email protected]值增加2.84%,并且模型的参数数量也有所减少,减少了0.97×106个,生成的权重文件也减少了4.1 MB,FPS提高了5.86 幅/s。表3方法性能测试实验结果3.2 NWPU-VHR-10数据集在不同算法下的对比实验为了进一步验证所提方法的优势,将所提方法与Faster-RCNN算法进行了比较,模型的性能如表4所示。从表中可以看出,本文方法识别目标的精度比Faster-RCNN算法模型高出5.12%,比YOLOv5算法模型高出3.65%。mAP值比YOLOv5算法模型高出2.84%。在速度上,本文方法的FPS值比YOLOv5算法模型高出14.42%,是一个很好的突破。表4不同方法在NWPU-VHR-10数据集上的性能同时整理了在NWPU-VHR-10数据集上的部分可视化检测结果如图7所示,并对图像中每个算法模型的标签、类别进行了统计,如表5所示。典型的Two-Stage算法Faster-RCNN检测时,飞机的精度仅仅达到了91%,操场的精度仅为94%,网球场的精度为92%,其检测精度低于One-Stage算法YOLOv5。YOLOv5算法下飞机的精度为96%,操场的精度为97%,网球场的精度为96%。而改进过后的GC-YOLOv5算法比YOLOv5原始算法的检测精度高,飞机的精度达到了98%,操场的精度达到了99%,网球场的精度达到了97%。表5记录了把不同算法的检测结果和真实标签的对比,3种算法均全部检测出了飞机、网球场、操场,没有出现漏检情况。但Faster-RCNN算法多检测出一个棒球场,且识别错误。YOLOv5算法没有出现漏检和误检的情况。GC-YOLOv5模型同样没有出现漏检和误检的情况,但识别出了汽车并且识别正确,识别的精度为52%。结果表明本文提出的方法更具有优势。表5NWPU-VHR-10数据集中不同算法的检测结果与真实标签对比3.3 RSOD数据集在不同算法下的对比实验为了印证模型的性能,本文将所设计的网络模型运用在RSOD数据集上进行了实验,如表6所示,性能最优数值加粗表示。与YOLOv5模型相比,GC-YOLOv5模型的召回率提高了5.23%,[email protected]提高了4.06%。与Faster-RCNN相比,精度提高了1.74%,召回率提高了0.78%。表6不同算法在RSOD数据集上的性能在RSOD数据集上的可视化检测结果如图8所示。使用Faster-RCNN算法检测时,飞机的精度达到了91%,立交桥的精度为88%。YOLOv5算法下飞机的精度为94%,立交桥的精度为81%。而改进过后的GC-YOLOv5算法下飞机的精度达到了94%,立交桥的精度达到了92%。表7记录了把不同算法的检测结果和真实标签的对比,3种算法均全部检测出了飞机、立交桥,同样没有出现漏检情况。而Faster-RCNN算法多检测出一个立交桥,且识别错误,YOLOv5算法没有出现漏检和误检的情况,GC-YOLOv5模型同样没有出现漏检和误检的情况,但只有GC-YOLOv5模型对每个目标的检测精度全部达到了90%以上。图8RSOD数据集检测结果样例表7RSOD数据集中不同算法的检测结果与真实标签对比3.4 方法适应性分析YOLOv5算法结合GhostConv模块和CA注意力机制可以是一种有效的解决方案。高分辨率遥感影像通常具有较大的空间范围和丰富的细节信息,包括目标的形状、纹理和光谱特征。同时,高分辨率遥感影像中可能存在大量的小目标和密集的目标分布,如建筑物、车辆和船只等。因此,高分辨率遥感影像目标检测需要具备较高的检测精度和较快的检测速度。GhostConv模块是一种轻量级的卷积神经网络模型,具有较小的模型体积和较低的计算复杂度,通过减少网络中的计算量,并使用更少的参数来实现更好的特征表示,适合在资源受限的遥感设备上部署。因此,将GhostConv模块引入YOLOv5算法中,可以进一步提高目标检测算法在高分辨率遥感影像中的性能。CA注意力机制是一种通道级别的注意力机制,用于在网络中学习通道间的关联信息。在高分辨率遥感影像目标检测中,通过引入CA注意力机制,可以自适应地调整不同通道的权重,使网络更关注对目标有贡献的通道,从而提升目标检测的精度。将GhostConv模块和CA注意力机制与YOLOv5算法结合,可以在高分辨率遥感影像目标检测中获得以下优势:1) 较小的模型体积和低的计算复杂度。GhostNet模型可以减小网络的模型体积和计算复杂度,使得算法在资源受限的遥感设备上更加适用,同时CA注意力机制可以通过自适应地调整通道权重,进一步提高网络的性能。2) 较好的目标检测精度。GhostConv模块通过引入Ghost module来提取更好的特征表示,结合YOLOv5的特征金字塔网络和跨尺度预测技术,可以更好地处理高分辨率遥感影像中的目标多尺度问题,从而提高目标检测的精度。同时,CA注意力机制可以在网络中学习通道间的关联信息,帮助网络更加关注对目标有贡献的通道,进一步提升目标检测的准确性。3) 较快的检测速度。YOLOv5作为一种单阶段目标检测算法,具有较快的检测速度,适合在实时或近实时的遥感应用场景中使用。GhostConv模块的轻量化设计也有助于加速整个算法的推理过程,从而在高分辨率遥感影像目标检测中保持较快的检测速度。总的来说,YOLOv5算法结合GhostConv网络和CA注意力机制在高分辨率遥感影像目标检测上具有较好的适应性。它可以在保持较小的模型体积和较快的检测速度的同时,提高目标检测的精度,适用于资源受限的遥感设备和实时或近实时的遥感应用场景。4 结论检测高分辨率遥感图像中的目标时,方便、快速、高精度的检测模型是非常重要的。针对现有目标检测算法在高分辨率遥感图像检测精度不够理想的问题,本文提出的一种GC-YOLOv5轻量级的高分辨率遥感图像目标检测网络模型。该算法是在YOLOv5模型的基础上,结合轻量级GhostConv模块解决了传统算法在高分辨率遥感图像检测中的难题。1) 模型检测精度为96.5%、召回率为96.4%,[email protected]值为97.7%,分别提高了3.65%,4.21%和2.84%。2) 针对高分辨率遥感图像中尺寸差别较大和不同角度的目标同样能实现精准的检测。3) 在NWPU-VHR-10数据集和RSOD 数据集上验证了该模型,并证明了该模型的稳健性。该模型一定程度上解决了目标检测精度低下的问题。GC-YOLOv5模型能够实现对不同类别的目标进行检测,各方面性能得到提升,但仍存在一些不足之处需要改进。与YOLOv5相比,虽然GC-YOLOv5在检测物体方面具有更好的性能,但仍有一些小目标被遗漏或者识别错误,导致目标被遗漏或者识别错误的主要原因是目标与背景的色差较小,与部分物体形状相似。虽然多尺度目标检测算法工作更有效,但它需要大量的计算,并且对硬件配置有很高的要求。同时,还应考虑其他干扰因素的影响,例如云雾遮挡和太阳照射出现的阴影。在未来的工作中,我们将收集更多的目标与背景颜色接近的图像作为研究数据,在保证精度的前提下增强网络模型的适应性。（原文有删减）【作者简介】宋爽爽(1998-),女,硕士研究生,主要研究方向为遥感图像处理。Email: [email protected] 。【基金资助】国家自然科学基金项目“基于多源数据融合的全南极太阳总辐射估算及其变化机制”(42306270)【引文文本】宋爽爽, 肖开斐, 刘昭华, 曾昭亮. 一种基于YOLOv5的高分辨率遥感影像目标检测方法[J]. 自然资源遥感, 2024, 36(2): 50-59.社群交流/原创投稿/ 商务合作来源：测绘学术资讯

下一篇：没有了

上一篇：没有了