【YOLO多模态检测顶刊】TGRS 2025范文解读,RGFNet 可见光-红外图像融合目标检测,2026年基于YOLO多模态融合属于发文热点,小论文和大论文通用,通读顶刊了解做实验和论文写作的全流程
0.论文介绍
🔥🔥🔥TGRS 2025 多模态目标检测顶刊🔥🔥🔥
本文目录
0.论文介绍
1、引言(Introduction)
2.相关工作(Related Work)
A. 单模态UAV目标检测
B. 红外-可见光UAV目标检测
C. 基于Retinex的低光图像增强
D. 状态空间模型
3.方法(Method)
A. 整体框架
B. 反射引导协同对齐模块(RCAM)
C. 光照感知选择性融合模块(LSFM)
D. 损失函数
4. 实验(Experiments)
A. 数据集与评估指标
B. 实验设置
C. 与最先进方法的比较
D. 消融实验
5.结论

论文题目:Reflectance-Guided Progressive Feature Alignment Network for All-Day UAV Object Detection
中文题目:全天无人机目标检测的反射率引导渐进特征对齐网络
所属单位:安徽大学人工智能学院
摘要:基于可见光-红外图像的物体检测技术,已成为无人机全天候应用的关键支撑。然而现有多模态检测方法在弱光环境下面临严峻挑战:可见光图像质量下降会加剧特征对齐问题,导致特征融合效果大打折扣。尽管近期研究尝试通过交叉注意力机制或特征对齐策略解决这些问题,但这些方法在夜间复杂场景中往往存在性能不稳定、泛化能力有限的缺陷。为突破这些局限,我们提出了一种新型反射率引导渐进式特征对齐网络(RGFNet),用于实现鲁棒的无人机物体检测。该方法利用Retinex理论从可见光图像中分解出的反射率特征所具有的光照不变特性,指导跨模态特征对齐与融合。具体而言,我们设计了反射率引导协同对齐模块(RCAM),通过反射率引导实现可见光与红外模态间的双向特征对齐,有效减少不同光照条件下的位置偏差。此外,我们还引入了光感知选择性融合模块(LSFM),通过选择性状态空间机制将多模态特征映射至共享的隐藏状态空间,既保持线性计算复杂度,又实现了高效的特征交互。针对无人机检测领域的两大挑战性基准测试,无人机车辆检测(DroneVehicle)和基于无人机的可见-热成像目标检测(DVTOD),我们通过大量实验验证了该方法的优越性。RGFNet在DroneVehicle测试中取得81.4%的平均精度(mAP),在 DVTOD 测试中达到88.5%的mAP,均达到行业领先水平。
1、引言(Introduction)
这篇论文的引言部分围绕无人机全天候可见光 - 红外跨模态目标检测的研究背景、现存问题、研究现状及本文核心贡献展开,我给大家对本文核心内容梳理如下:
- 研究背景与应用价值:目标检测是遥感领域基础任务,无人机凭借体积小、视野广等优势,其目标检测技术在交通监控、搜救、边境安防等军民领域应用广泛;但现有算法依赖可见光图像,光照变化(黑暗、过曝、光照不均等)会导致检测性能骤降,限制了无人机检测系统的全天候应用,而红外图像可稳定捕捉目标热信息和轮廓,与可见光图像形成互补,融合二者信息成为实现无人机全天候检测的关键思路。
- 核心技术难题:可见光 - 红外图像对普遍存在空间错位问题,且该问题在低光照条件下因可见光图像质量退化、目标信息丢失进一步加剧;红外图像虽能提供互补线索,却无法弥补可见光图像的外观畸变和信息缺失,导致跨模态特征配准难度提升、融合效果变差,传统跨模态检测方法在夜间复杂场景下性能仍大幅下降。
- 现有研究的局限性:现有跨模态检测方法虽围绕特征配准与融合展开研究,但均存在明显不足:部分方法选取单一高质量模态为参考,未充分利用双模态互补信息;部分采用特征拼接加权求和等简单融合策略,难以挖掘模态间深层互补信息;近期基于 Transformer 的跨模态注意力融合方法,忽略了光照变化下可见光特征提取不可靠、不完整的问题,引入大量噪声,无法实现适配不同光照条件的高效跨模态融合。
- 解决思路的理论依据:Retinex 理论具备光照不变特性,可将可见光图像分解为反射分量和光照分量,其中反射分量代表目标固有材质特征,不受光照条件影响,即便在极端黑暗、光照不均等场景下,仍能保留可见光图像的结构和纹理信息,是引导可见光 - 红外图像配准与融合的理想参考,为解决低光照下的跨模态融合难题提供了有效思路。
- 本文核心方法与贡献:提出反射引导渐进式特征配准网络(RGFNet),设计两个核心模块解决上述问题:一是反射引导协同配准模块(RCAM),通过双向校正策略实现跨模态特征配准,降低不同光照下的位置错位;二是光照感知选择性融合模块(LSFM),通过选择性状态空间机制将配准后的特征映射至共享隐状态空间,在保持线性计算复杂度的同时实现高效特征交互。最后明确本文四大核心贡献,并交代了论文后续的结构安排。

低光照条件下红外-可见光物体检测挑战示意图。(a) RGB与红外图像间的位移偏差,对应物体实例以黄色和红色框标出。(b) RGFNet与基线方法的特征融合质量对比。
综上,本文的研究贡献可总结为以下四点:
- 提出 RGFNet 框架,利用反射分量的光照不变特性,解决了不同光照强度(从极端黑暗到强光)和光照分布(从均匀到非均匀)下的多模态目标检测难题,有效解决了复杂光照条件下可见光 - 红外检测中普遍存在的位置错位和特征退化问题;
- 设计反射引导协同配准模块(RCAM),以反射分量为参考实现渐进式跨模态配准,先通过反射特征配准红外特征,再利用配准后的红外特征引导可见光特征配准,有效降低了各类光照条件下的位置错位;
- 提出光照感知选择性融合模块(LSFM),通过选择性状态空间机制将特征映射至共享隐状态空间,在实现高效跨模态特征交互的同时,保持了线性计算复杂度;
- 在两个极具挑战性的无人机可见光 - 红外检测基准数据集(DroneVehicle 和 DVTOD)上开展了大量实验验证,所提方法取得了当前最优的检测性能,在 DroneVehicle 数据集上实现了 81.4% 的平均精度均值(mAP),在 DVTOD 数据集上的平均精度均值达 88.5%,在检测精度和效率上均显著优于现有方法。

图2. 不同光照条件下反射率分解的可视化呈现。原始可见光图像(上排)及其对应的反射率分量(下排)展示了反射率特征的光照不变性。
2.相关工作(Related Work)
本节回顾了与本文相关的研究工作,主要包括单模态UAV目标检测、红外-可见光UAV目标检测、基于Retinex的低光图像增强以及状态空间模型(SSM)等方面的研究。
A. 单模态UAV目标检测
近年来,基于UAV的单模态目标检测技术取得了显著进展。单模态UAV目标检测面临多个基本挑战,包括物体的任意方向、因高度变化导致的尺度变化以及在不同照明条件下性能的显著下降。这些挑战推动了针对UAV场景的特定检测方法的开发。
早期的方法主要聚焦于将经典检测框架适应于处理旋转物体。例如,Faster R-CNN [23] 首先引入了旋转锚框,用于回归和分类。在此基础上,Ding等人 [24] 提出了RoI Transformer模块,通过整合RRoI的细化和变换过程,将水平提议转化为定向提议。Oriented R-CNN [25] 专为定向检测设计,采用轻量级区域提议网络(RPN),直接生成高质量的定向提议。Redet [26] 设计了旋转不变网络和旋转不变的RoI对齐,提升了空中影像中的定向目标检测性能。Gliding Vertex [27] 通过在水平边界框上滑动顶点并基于面积比引入倾斜因子,准确描述了定向物体,指导选择接近水平的物体进行定向检测,从而有效提高了定向目标检测的性能。
尽管这些方法在单模态UAV目标检测中表现出色,但在变化的照明条件、光照不均匀、过曝等环境下,性能显著下降。因此,红外-可见光目标检测方法成为了提高鲁棒性的关键。
B. 红外-可见光UAV目标检测
红外-可见光目标检测是一项关键研究领域,旨在通过融合可见光图像和红外图像的互补信息,克服单模态图像在复杂环境中的限制。这种协同方法显著提高了目标检测的准确性和鲁棒性。为了应对红外-可见光数据中的对齐问题,CAGTDet [28] 通过预测RGB和IR模态中的位置、尺度和角度偏差来校准RoI特征,进行区域级对齐。OAFA [29] 构建了一个模态不变的特征空间,通过跨模态空间偏移建模(CSOM)模块估计偏移量,并使用基于偏移的可变形对齐和融合(ODAF)模块实现自适应特征融合,而无需严格的对齐。
有效的融合方法对于充分利用可见光和红外模态的特征至关重要。Wagner等人 [30] 首次构建了早期和晚期CNN融合架构,用于提高目标检测的可靠性。Liu等人 [31] 开创性地展示了中期融合能获得更好的结果。CFT [6] 引入了基于变换器的融合模块,通过自注意力机制深度融合RGB和IR特征。CALNet [32] 通过跨模态冲突修正和选择性特征融合提高了检测准确性。C²Former [17] 通过跨模态跨注意力模块和自适应特征采样策略,解决了红外-可见光目标检测中的模态校准和特征融合问题。CRSIOD [33] 通过将多种不确定性引入权重,增强了主导特征的表征,从而提高了多模态物体检测的准确性。
这些改进设计在红外-可见光目标检测中取得了显著进展,但这些方法并未充分考虑极端环境条件下的影响,特别是在可见光图像质量受到不同光照强度和分布的严重影响时,弱对齐问题变得更加难以解决,因此其性能提升仍然有限。
C. 基于Retinex的低光图像增强
低光图像增强作为图像恢复的一个重要分支,近年来得到了广泛研究。许多研究 [20]、[21]、[22] 基于Retinex理论 [19],该理论假设可见光图像可以分解为具有光照不变特性的反射成分和光照信息,这两者都可以优化以增强图像质量。为此,一些研究 [22]、[34] 利用从低光图像中分离出来的反射成分作为最终的增强图像。一些研究 [20]、[21]、[35]、[36] 通过调整光照来重建增强图像。RetinexNet [37] 使用结构感知平滑损失和多尺度光照调整策略来优化图像分解和光照调整过程。
随着深度学习的快速发展,结合Retinex分解和深度学习的研究方法受到了广泛关注。Zhang等人 [38] 提出了基于深度Retinex分解网络的KinD++,在该网络中,光照调整和退化恢复并行进行,促进了更好的正则化学习。Retinexformer [22] 通过估计光照信息并使用其引导长距离依赖建模,进行图像增强。Diff-Retinex [36] 利用变换器的全局信息捕获能力,有效地分离了图像中的光照和反射成分,并使用去噪扩散概率模型从条件图像生成的角度重新思考低光图像增强。DAI-Net [39] 通过学习光照不变的反射表示,并在特征层面增强光照不变性,提升了光照退化图像的恢复性能。
尽管低光图像增强方法在准确性上取得了显著提升,但它们在下游任务(如多模态目标检测)中的综合应用仍然缺乏。
D. 状态空间模型
SSM(状态空间模型)由于其在分析连续长序列数据方面的优异性能,被认为是高效的序列到序列模型。结构化状态空间序列模型(S4)[40] 通过低秩和正则项分解以及Woodbury矩阵常数,有效建模长序列数据中的长程依赖关系。S5模型 [41] 提出了简化的状态空间层,用于MIMO SSM,通过并行扫描实现高效的长序列建模。选择性SSM(S6)[42] 实现了一种具有线性时间复杂度和高性能的序列建模架构,通过选择性状态空间机制和硬件感知并行算法。
与视觉变换器的二次复杂度相比,Mamba [42] 可以实现线性复杂度,而不牺牲全局感受野,这对红外-可见光目标检测任务非常重要。Fusion-Mamba [7] 通过在隐藏状态空间中融合跨模态特征,减少了模态间的差异,并增强了融合特征的表示一致性。MGMF [43] 利用一种模态的候选区域引导另一模态的中间层特征提取,然后将不同模态的特征映射到共享的隐藏状态空间中进行交互和融合。DMM [44] 利用模态间的差异信息自适应地合并可见光和红外图像的特征,并通过设计的DSSM引导跨模态特征融合。
受到这些研究启发,我们利用Mamba在线性分析长距离序列的能力,设计了RGFNet。该网络创新性地引入了一种高效的特征选择性扫描策略,以减轻低光照条件下图像质量受损的问题。
3.方法(Method)
本节详细介绍了我们提出的反射引导渐进特征对齐网络(RGFNet)。该方法包括两个关键模块:反射引导的协同对齐模块(RCAM)和光照感知选择性融合模块(LSFM)。在此部分,我们首先介绍整个框架的概述,然后分别详细讨论这两个模块,最后介绍RGFNet的损失函数。
A. 整体框架

图4. 我们提出的RGFNet整体架构。该架构包含:用于反射率特征和二元光照状态指示符K提取的预训练Retinex分解网络、用于多模态特征学习的双流特征提取网络,以及三个用于渐进式特征对齐与融合的RGFBlocks。检测网络通过其颈部和头部模块,处理最后三个阶段融合的特征以生成最终预测。
我们的基准模型基于标准YOLOv8框架,采用两流架构处理多模态输入。具体来说,使用两个相同的YOLOv8主干(CSPDarkNet-S)分别从RGB和IR模态中提取特征。然后,通过逐元素求和将这两个分支的最后三个阶段的特征进行融合,生成融合特征P3、P4和P5。这些融合特征随后被输入YOLOv8的脖部和头部模块,生成最终的检测结果。以此为基准,我们设计了基于此框架的创新检测架构RGFNet。如图4所示,该框架包括一个预训练的Retinex分解网络,用于提取反射特征FF和光照值,并通过两个特征提取网络独立提取RGB和IR模态的特征。在接下来的阶段中,特征通过三个RGFBlock进行渐进对齐和融合。
在第一阶段,我们首先利用预训练的Retinex分解网络从可见光图像中提取反射特征FF和光照值,并使用预设的阈值将光照值二值化,获得二值光照状态指示符K。K的值为0或1,分别表示暗光和亮光场景。然后,分别通过两个具有相同结构但不同参数的特征提取网络提取RGB特征{FRi | i = 1, 2, …, 5}和IR特征{FIi | i = 1, 2, …, 5},这些特征的空间尺寸为输入数据的1/2、1/4、…、1/32。
为了应对不同光照强度和分布条件下的位置错位问题,我们引入了反射引导的协同对齐模块(RCAM)。RCAM利用具有抗暗光特性的反射特征作为参考特征,首先对IR特征进行对齐,接着使用对齐后的IR特征作为参考,进一步对可见光(RGB)特征进行对齐。然后,我们将对齐后的反射特征、IR特征和RGB特征输入光照感知选择性融合模块(LSFM),在隐藏状态空间中进行特征交互,生成相应的互补特征。接下来,我们将对齐特征和互补特征相加,得到增强特征。最后,增强后的两种模态特征直接相加,得到融合特征Pi。我们只在最后三个阶段添加RGFBlock,生成融合特征P3、P4和P5,这些特征被输入YOLOv8的脖部和头部模块进行最终检测,确保最佳性能和高效计算。
B. 反射引导协同对齐模块(RCAM)
在低光照和不均匀光照条件下,可见光图像质量的显著下降,使得位置错位问题变得更加复杂,给UAV车辆检测带来了极大挑战。为了解决这一问题,我们引入了通过预训练的Retinex分解网络从可见光图像中提取的反射特征,这些特征能够在不同光照强度条件下保持大量有用信息。

如图5所示,我们设计了RCAM模块,利用调制的可变形卷积 [45] 来实现跨模态特征的双向对齐。具体来说,我们首先使用反射特征FF作为参考特征,红外模态FI作为感知特征,执行带有偏移量引导的可变形卷积操作。该过程首先将两个特征在通道维度上拼接,然后进行卷积以生成初始的偏移特征,随后将这些偏移特征与前一层RCAM中的偏移特征进行通道拼接并卷积,最终生成偏移特征。对于第一次RCAM操作,偏移特征是通过拼接感知特征和参考特征后单次卷积直接获得的。最后,偏移特征被处理并输出偏移量1n和调制标量1m。对齐后的红外特征FI可以通过以下公式计算:

接着,我们再次进行带有偏移量引导的可变形卷积操作,使用对齐后的红外特征FI作为参考特征,反射特征FF作为感知特征,得到对齐后的反射特征FF。公式如下:

C. 光照感知选择性融合模块(LSFM)
在RCAM之后,我们获得了对齐的红外特征FI、增强的可见光特征FR和对齐的反射特征FF。这显著缓解了由于弱对齐而引起的模态差异问题。然而,现有的跨模态融合方法主要依赖变换器的动态建模能力来解决多模态差异,但由于低光条件下可见光图像质量严重退化,跨模态特征的动态建模受到阻碍。此外,这些方法通常具有较高的计算成本,需要仔细考虑。为了应对这些挑战,我们设计了一个基于MambaIR [46] 的LSFM模块,充分利用反射的光照不变性,避免了额外的计算开销。

我们首先将FR、FI和FF在通道维度上进行拼接,并在视觉状态空间模块(VSSM)和多层感知器(MLP)之前和之后使用不同的可学习尺度因子s来控制跳跃连接信息。整个LSFM过程可以表示为:

接着,我们对每个模态特征分别进行处理并进行增强,最终将FR和FI与互补特征FbR和FbI相加,得到增强特征。
在VSSM中,FX首先被分离开来进行单独处理,过程可以表示为:

D. 损失函数

4. 实验(Experiments)
在本节中,我们首先描述了实验中使用的数据集和评估指标。随后,我们提供了实验设置的相关细节。然后,我们将提出的方法与现有的最先进方法进行了比较。最后,我们通过消融实验验证了方法中各个关键模块的有效性。
A. 数据集与评估指标
我们在两个公开的UAV(无人驾驶航空器)基础的红外-可见光目标检测数据集上训练和验证了我们的模型。
-
DroneVehicle 数据集:DroneVehicle数据集 [59] 是一个大型的UAV基于RGB-IR(红外)数据集,包含28,439对可见光和红外图像。该数据集涵盖了城市道路、住宅区和停车场等不同场景,拍摄时间包括白天、夜间和黑暗时段。数据集中手动标注了五种类型的车辆:轿车、巴士、卡车、面包车和货车,包含953,087个车辆实例。该数据集正式划分为训练集(17,990对图像)、验证集(1,469对图像)和测试集(8,980对图像)。
-
DVTOD 数据集:DVTOD(基于无人机的可见-红外物体检测)数据集用于解决模态错位问题,涵盖了多种具有挑战性的场景,包括恶劣天气(雨、雪、雾)、光照变化(极度曝光、白天、夜间和黑暗)和由特殊材料(木材、不透明材料和玻璃)造成的遮挡。该数据集包含4,358张图像,涵盖了“人”、“车”和“自行车”三类目标。在我们的实验中,我们参考文献 [64] 中的训练和测试集划分策略,选择了1,606对图像作为训练集,573对图像作为测试集,图像大小固定为640×640。
-
评估指标:多光谱目标检测任务通常使用mAP(均值平均精度)作为主要评估指标。mAP是所有类别的平均精度(AP)的平均值,为目标检测模型在不同类别上的整体性能提供了评估指标。对于DVTOD数据集,我们采用COCO评估方式,并使用IoU(交并比)阈值为0.5来计算mAP指标。对于DroneVehicle数据集,我们不使用原始的插值样式计算AP,而是通过基于召回点变化的直接计算方式来计算AP,这与MMRotate框架的评估标准一致。计算mAP时,我们使用IoU阈值为0.5来判断真阳性(TP)和假阳性(FP)。
B. 实验设置
所有实验均在一台配备24GB内存的NVIDIA 3090 GPU上进行。模型的代码环境基于CUDA 11.8和PyTorch 2.1.0,使用SGD优化器实现我们的算法。在训练过程中,我们使用基于YOLOv8框架的两流特征提取架构,初始化时使用预训练的权重,主干网络的动量设置为0.937,权重衰减设置为0.0005,初始学习率设置为0.01。输入图像大小为640×640,批次大小为8,训练周期为150。
对于DroneVehicle数据集,由于红外模态的目标标注更为全面,我们使用红外图像的标签作为训练的地面真实值。
表I展示了 DRONEVEHICLE 数据集的综合实验结果。我们比较了 RGFNET 方法与单模态及多模态目标检测器的性能,所有检测器均采用OBB检测头。最佳结果以粗体显示,次优结果以下划线标出。


图7展示了DroneVehicle数据集的预测结果可视化。第一列呈现了RGB和红外图像的地面真实值。通过蓝色虚线圆圈对比检测结果可见,我们的方法在多种弱光条件下均展现出优异的检测性能。

图8展示了DroneVehicle数据集的预测结果可视化。第一列呈现了RGB和红外图像的地面真实数据。蓝色虚线圈内的检测结果对比表明,我们的方法在光照不均条件下仍展现出优异的检测性能。
C. 与最先进方法的比较
-
在DroneVehicle测试集上的比较:我们将RGFNet与最先进的竞争方法在DroneVehicle测试集上进行了比较。这些方法包括10种单模态方法:RetinaNet [47]、Faster R-CNN [23]、RoITransformer [24]、ReDet [26]、Gliding Vertex [27]、UIU-Net [56]、I2MDet [57]、DTNet [58]、YOLOv5 [49] 和 YOLOv8 [50]。此外,还包括8种多模态融合检测方法:UA-CMDet [59]、CALNet [32]、C2Former [17]、LPANet [54]、DDCINet [60]、DMM [44]、CCLDet [61] 和 MGMF [43]。对于每个对比方法,我们采用其原始实验设置,以确保公平性。表I显示了在DroneVehicle测试集上的检测结果。我们的方法相较于基准方法和其他最先进的方法,表现出了最佳的平均性能,在测试集上的mAP达到81.4%,超越了第二名的MGMF方法1.1%。
-
在DroneVehicle验证集上的比较:表I展示了我们与18种其他最先进方法的比较结果,其中包括11种多模态方法。在单模态方法中,YOLOv8s [50] 表现出了与现有方法相当的检测精度(RGB模态为74.5% mAP@0.5,IR模态为78.6% mAP@0.5)。在多模态方法中,ADMPF [55] 展现出了强劲的性能,达到了82.1% mAP@0.5。值得注意的是,我们的RGFNet在性能上有显著提升,达到了83.8% mAP@0.5,比ADMPF [55] 高出1.7% mAP@0.5。
-
在DVTOD数据集上的比较:DVTOD是一个新建立的UAV捕获的错位可见-红外目标检测数据集,涵盖了多种具有挑战性的场景(如雨、雪、雾、白天和夜间)。我们在DVTOD数据集上评估了我们的方法,并与七种最先进的算法进行了比较,包括三种单模态算法,如YOLOv5 [49]、YOLOv8 [50] 和 YOLOv10 [62],以及四种双模态算法,如YOLOv5 + Add、CMX [63]、CFT [6] 和 CMA-Det [64]。表II显示了我们的方法在该数据集上取得了最佳检测性能,超过了最先进的CMA-Det方法 [64],提高了3.5%的mAP@0.5。
-
计算成本比较:我们还对RGFNet与其他最先进的红外-可见光检测方法进行了计算成本比较,评估了各个模型的参数数量和速度。如图9所示,RGFNet在保持最少参数的同时,达到了最高的检测性能。此外,如图10所示,RGFNet在YOLO系列主干方法(如LPANet [54] 和 ADMPF [55])的基础上,既保持了竞争力的FPS,又取得了更高的检测精度。实验结果充分验证了我们方法的优越性。
表 II 在 DVTOD 数据集上进行了全面实验。我们将 RGFNET 方法与单模态及多模态目标检测器进行对比。最佳结果以粗体标出,次优结果则以下划线标示。

D. 消融实验
为了评估我们方法的有效性,我们在DroneVehicle测试集上进行了消融实验,表III展示了实验结果。我们通过逐步加入各个模块,全面评估了RCAM和LSFM的效果。
表 III DRONEVEHICLE 测试集上 RGFNET 的消融实验

-
RCAM模块的有效性:我们首先分析了RCAM模块的影响,RCAM利用具有光照不变特性的反射作为参考,对RGB特征和IR特征进行双向对齐。如表III所示,基准模型的mAP@0.5为78.9%。加入RCAM后,mAP@0.5提高了0.9%,达到了79.8%。为了进一步评估RCAM的有效性,我们可视化了低光照条件下的可见光和红外图像特征,显示在经过RCAM处理后,空间位置上之前错位的目标得到了基本对齐,显著缓解了不同光照条件下的模态错位问题。

-
LSFM模块的有效性:然后,我们验证了LSFM在深度融合RGB-IR模态特征中的必要性。如表III所示,基准方法的mAP@0.5为79.8%,加入LSFM后,性能提高了1.6%,达到了81.4%。LSFM有效抑制了暗光干扰,通过深度融合优化目标特征,增强了网络的检测能力。

-
RGFNet的有效性:最后,我们同时将RCAM和LSFM加入到基准模型中,结果显示,RGFNet相比于基准方法提高了2.5%的mAP@0.5。消融实验结果验证了RCAM和LSFM的有效性,表明我们的方法通过充分利用反射的光照不变特性,精准对齐和融合了RGB和IR特征,从而大幅提升了检测性能。
5.结论
在本文中,我们提出了一种新颖的反射引导渐进特征对齐网络(RGFNet),用于红外-可见光遥感目标检测。该方法结合了反射特征的光照不变性,通过反射引导的协同对齐模块(RCAM)和光照感知选择性融合模块(LSFM)有效解决了跨模态融合中的光照变化问题。具体而言,RCAM利用反射特征引导红外特征和可见光特征之间的双向对齐,从而减少了不同光照条件下的错位问题。而LSFM通过选择性状态空间机制将多模态特征映射到共享的隐藏状态空间,促进了高效的特征交互,并保持了线性计算复杂度。
在两个具有挑战性的无人机(UAV)数据集——DroneVehicle和DVTOD上的广泛实验表明,RGFNet在准确性和效率上均优于现有的最先进方法。在DroneVehicle数据集上,RGFNet达到了81.4%的mAP,在DVTOD数据集上则达到了88.5%的mAP,显著提高了跨模态目标检测的性能。
未来的工作将集中于探索将我们的方法应用于轻量化的多模态检测任务,进一步提升模型在资源受限的UAV平台上的效率,并扩展该框架以适应更广泛的环境条件。我们相信,这些努力将推动全天候无人机检测系统的实际部署。









