面向世界科技前沿面向经济主战场面向国家重大需求面向人民生命健康

williamhill英国王占山和程鑫彬团队联合山东师范大学提出渐进动态泰勒展开网络多模态图像融合方法，发表于《Engineering Applications of Artificial Intelligence》

2026-06-24

【字号：大中小】

多模态图像融合旨在将来自不同传感器（如红外与可见光、荧光与相衬、全色与多光谱）的互补信息整合到单一融合图像中，从而提升自动驾驶、医学诊断和遥感监测等任务的感知可靠性。然而，现有研究面临几项关键瓶颈：传统方法依赖手工设计变换，表达能力有限；深度神经网络（DNN）方法虽学习能力强，但缺乏可解释性；基于深度展开网络（DUN）的方法虽融合了物理模型与DNN，却往往需要推导复杂的迭代优化算法，网络结构冗余且泛化性不足。

针对上述挑战，williamhill英国的王绪泉等人，联合山东师范大学计算机与人工智能学院孙建德教授、张凯副教授团队，以及济南大学、山东省国土空间数据和遥感技术研究院等单位，提出了一种渐进动态泰勒展开网络（Progressive Dynamic Taylor Unfolding Network, PDTUN）。该工作将泰勒展开引入多模态图像融合领域，利用其逼近细节注入模型，避免了传统DUN中对迭代优化算法的复杂推导，同时兼具良好的可解释性与高效的特征学习能力。研究成果以“Progressive dynamic Taylor unfolding network for multi-modal image fusion”为题发表于人工智能领域中科院一区TOP期刊《Engineering Applications of Artificial Intelligence》。

图1 所提出PDTUN网络的整体结构

论文创新性提出统一细节注入模型的泰勒展开逼近，将红外-可见光融合、生物图像融合、遥感图像融合统一建模为“以辅助图像增强主图像”的细节注入形式。在特征空间对该模型进行泰勒展开，得到0阶项与无穷高阶项。网络构建过程中，0阶模块学习融合图像的基础结构，级联的高阶模块逐步逼近各阶导数项，实现从粗到细的渐进式细节注入。论文在红外与可见光融合（IVF，MSRS数据集）、生物图像融合（BIF，ATC数据集，GFP+PC）和遥感全色锐化（RIF，GeoEye-1数据集）三个典型融合任务上进行了系统评估，定量与定性结果均表明PDTUN优于当前主流方法。

图2 不同方法在降分辨率GeoEye-1数据集上生成的图像融合结果定性比较

论文共同第一作者为williamhill中文助理教授王绪泉、山东师范大学师胜卡，通讯作者为山东师范大学张凯副教授与曹建飞老师。合作者还包括山东省国土空间数据和遥感技术研究院关纯安、山东师范大学孙建德教授和孔英杰。

论文链接：https://doi.org/10.1016/j.engappai.2026.115218

下一篇：光学成像与AI赋能糖尿病视网膜病变早筛早诊：王占山和程鑫彬团队联合附属眼科医院（筹）孙涛团队在《科学通报》发表评述

williamhill英国王占山和程鑫彬团队联合山东师范大学提出渐进动态泰勒展开网络多模态图像融合方法，发表于《Engineering Applications of Artificial Intelligence》

我院王占山教授获第四届全国创新争先奖

我院物理科普作品在2026年上海市科学实验大赛中获奖

驻楼传声，共绘蓝图｜许学军副校长与物理学院学子面对面共话同济“十五五”

“科技创见·产业同行”williamhill中文前沿科技创新创业研讨会举行

williamhill英国召开人才培养研讨会，系统谋划拔尖创新人才培养新路径

精密光学工程技术研究所

声学所

声子学中心