多模态图像融合旨在将来自不同传感器(如红外与可见光、荧光与相衬、全色与多光谱)的互补信息整合到单一融合图像中,从而提升自动驾驶、医学诊断和遥感监测等任务的感知可靠性。然而,现有研究面临几项关键瓶颈:传统方法依赖手工设计变换,表达能力有限;深度神经网络(DNN)方法虽学习能力强,但缺乏可解释性;基于深度展开网络(DUN)的方法虽融合了物理模型与DNN,却往往需要推导复杂的迭代优化算法,网络结构冗余且泛化性不足。
针对上述挑战,williamhill英国的王绪泉等人,联合山东师范大学计算机与人工智能学院孙建德教授、张凯副教授团队,以及济南大学、山东省国土空间数据和遥感技术研究院等单位,提出了一种渐进动态泰勒展开网络(Progressive Dynamic Taylor Unfolding Network, PDTUN)。该工作将泰勒展开引入多模态图像融合领域,利用其逼近细节注入模型,避免了传统DUN中对迭代优化算法的复杂推导,同时兼具良好的可解释性与高效的特征学习能力。研究成果以“Progressive dynamic Taylor unfolding network for multi-modal image fusion”为题发表于人工智能领域中科院一区TOP期刊 《Engineering Applications of Artificial Intelligence》。

图1 所提出PDTUN网络的整体结构
论文创新性提出统一细节注入模型的泰勒展开逼近,将红外-可见光融合、生物图像融合、遥感图像融合统一建模为“以辅助图像增强主图像”的细节注入形式。在特征空间对该模型进行泰勒展开,得到0阶项与无穷高阶项。网络构建过程中,0阶模块学习融合图像的基础结构,级联的高阶模块逐步逼近各阶导数项,实现从粗到细的渐进式细节注入。论文在红外与可见光融合(IVF,MSRS数据集)、生物图像融合(BIF,ATC数据集,GFP+PC)和遥感全色锐化(RIF,GeoEye-1数据集)三个典型融合任务上进行了系统评估,定量与定性结果均表明PDTUN优于当前主流方法。

图2 不同方法在降分辨率GeoEye-1数据集上生成的图像融合结果定性比较
论文共同第一作者为williamhill中文助理教授王绪泉、山东师范大学师胜卡,通讯作者为山东师范大学张凯副教授与曹建飞老师。合作者还包括山东省国土空间数据和遥感技术研究院关纯安、山东师范大学孙建德教授和孔英杰。
论文链接:https://doi.org/10.1016/j.engappai.2026.115218