欧美精品

欧美精品- 教学科研

教学科研

欧美精品 团队在红外智能感知领域中取得最新进展

近日,欧美精品 张睿恒副教授科研团队在红外智能感知领域取得突破性进展。研究成果以“IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark”为题,入选国际计算机视觉领域顶级会议 IEEE/CVF International Conference on Computer VisionICCV 2025)。该工作第一作者为欧美精品 2024级博士研究生曹哲,通讯作者为张睿恒副教授。

在多模态人工智能领域,视觉语言大模型(Vision-Language Models, VLMs)已在可见光图像理解中取得显著突破。然而,红外图像作为在夜视导航、安全监控、无人系统感知等场景中广泛应用的重要视觉模态,却长期缺乏与文本语义配对的大规模数据集,使得现有多模态大模型在红外图像上常出现幻觉与误判,难以正确理解真实红外场景中的语义信息。针对这一国际难题,研究团队提出了首个面向真实红外图像的多模态大模型 IRGPTInfraRed GPT),并构建了全球首个大规模真实红外文本配对数据集 IR-TDInfraRed-Text Dataset)。

如图1所示,团队发现现有多模态大模型在红外图像理解中普遍存在材质误判等幻觉现象,而IRGPT能够有效抑制此问题,实现对红外场景的真实理解。

1 不同多模态大模型在红外图像理解任务中的对比

IRGPT模型建立在全新的红外文本大规模数据集IR-TD基础上。IR-TD共包含超过26万对真实红外图像与高质量文本描述,数据由人工筛选、可见光配对图像描述生成与规则化注释三部分构成,兼顾真实性、语义一致性与多样性。该数据集同时建立了涵盖识别、定位、重识别、计数、场景理解等9种任务的评测基准,为红外领域多模态研究提供了基础平台。

在模型训练方法上,团队创新性地提出了双跨模态课程迁移学习(Bi-cross-modal Curriculum Transfer Learning)框架(如图2所示),通过可见光红外文本三者间的双向课程学习,实现了从简单到复杂的知识迁移过程。框架的第一阶段(IR–VIS)以几何度量计算红外与可见光图像的域差,帮助模型建立红外视觉表征;第二阶段(IR–T)基于预训练CLIP模型动态损失变化率,评估红外图像与文本的语义对齐难度,并通过自适应加权提升跨模态匹配能力。这一渐进式迁移机制使得模型能够逐步掌握红外场景中的热辐射特征和语义结构。

2 双跨模态课程迁移学习框架示意图

基于IR-TD数据集和创新训练策略,IRGPT在九项红外视觉语言任务上均取得了当前最优性能。如表1所示,在零样本(Zero-shot)测试中,IRGPT相较于基线模型InternVL2-8B的正向指标提高了76.35分;在微调(Fine-tune)阶段,IRGPT以正向综合得分485.79、负向得分仅4.39的优异表现,全面超越包括更大规模模型InternVL2-26B在内的主流模型。

1 IRGPT与多模态大模型在红外任务上的性能对比结果。

IRGPT在红外场景识别、目标定位、语义问答、目标计数等复杂任务上展现出卓越的跨模态推理能力,并首次在真实红外数据上实现了语言级别的视觉理解。团队进一步通过样本难度可视化分析(如图3所示)验证了课程迁移策略的有效性,不同难度样本在模型学习过程中表现出符合人类学习规律的逐级提升。

3 不同难度样本的红外图像及文本语义理解效果示例。

该研究首次实现了从可见光到红外再到文本的系统性知识迁移,开创了真实红外图像语义理解的新范式。IRGPT不仅在学术研究中具备重要价值,也为红外智能感知、无人系统夜视导航、安全监控等领域提供了新的技术路径。研究团队已将数据集开源,为推动红外多模态人工智能的发展提供了开放平台。

 

论文详情:Cao Z, Zhang J, Zhang R. IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025: 166-176.

论文链接://openaccess.thecvf.com/content/ICCV2025/html/Cao_IRGPT_Understanding_Real-world_Infrared_Image_with_Bi-cross-modal_Curriculum_on_Large-scale_ICCV_2025_paper.html

数据集开源://github.com/WheatCao/ICCV2025-IRGPT

附作者简介:

曹哲,欧美精品 博士研究生。主要从事红外智能感知、多模态融合学习等方面研究。曾获北方工业奖学金等奖励,以(学生)第一作者在ICCV等国际刊物上发表学术论文6篇,授权发明专利2项。

张睿恒,欧美精品 长聘副教授、博士生导师。长期从事红外成像精细化识别方面研究,主持多项国家级科研任务,在IEEE Trans.NeurIPS等顶级刊物上发表学术论文30余篇,获省部/学会级科技成果奖3项。