人工智能学院举办“多模态预训练模型研究进展回顾与展望”科学前沿讲座

  • 文/图 张善斌
  • 创建时间: 2025-11-19
  • 623

  11月17日晚上,中国科学院大学人工智能学院有幸邀请中国科学院自动化研究所研究员刘静老师,在雁栖湖校区教一楼109教室为同学们带来科学前沿讲座——《多模态预训练模型研究进展回顾与展望》。

  多模态大模型是针对图文音视等各种弱关联模态信息,利用自监督学习与模型微调等手段,建立多模态融合表征、关联协同与相互转化等,已被认为是实现类人感认知能力的重要途径,现已得到无论在学术界还是企业界的广泛关注与爆发式发展。多模态大模型通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答,语音识别与合成,人机交互等应用领域中具有潜力巨大的市场价值。

  本报告主要包含四方面内容:简单介绍多模态大模型的必要性与工作原理;回顾当前多模态大模型的前沿进展;刘静老师研究团队在多模态大模型构建与优化方面的最新工作;以及对多模态大模型领域的思考与展望。

213013 808890 121

  刘老师首先从人工智能的发展讲起,梳理了近几十年中人工智能的技术发展路线。她指出,自1956年达特茅斯会议至今,人工智能经历了三个主要发展阶段,从符号智能,到专用智能,再到如今向通用智能迈进。目前,通用智能的发展意味着需要大数据、大模型、大算力。随着大模型技术成为人工智能前沿的制高点,对于人工智能的研究开启了基于自监督学习的“大数据+大模型”新范式,从大规模的无标注数据中挖掘隐含的监督信息进行通用知识学习,成为迈向通用人工智能的重要途径。近年来,各种大模型持续涌现,数据量/模型参数量不断增长,并在语言、语音、视觉等通用领域,以及气象、遥感、生物医药等各领域取得优异性能。

  接下来,刘老师回顾了大语言模型的发展历程。从作为大模型领域发展引擎的Transformer架构的提出,到openai具有划时代意义的GPT系列的推出,再到Deepseek模型的一鸣惊人,刘老师详细介绍了各代模型的基本原理、技术特点与产生的深远影响。最后,刘老师指出,Deepseek并不是通用大模型发展的终点,而是新的起点;而从语言大模型迈向多模态大模型,也从必然成为已然。

213027 849512 122

  此后,刘老师着重讲解了多模态大模型的基本背景与发展现状。目前大模型多模态能力的提升可以让许多智能应用走入现实,其在自动驾驶、智能家居、AI数字人、具身智能等领域都有着重要应用。多模态大模型经历了视觉语言模型、多模态预训练、多模态大语言模型的发展历程。目前主流的多模态大模型,其通用范式是将一个预训练的视觉编码器和一个预训练的大语言模型,通过一个精心设计的“连接模块”进行桥接,从而实现对图像内容的理解和描述。目前的多模态大语言模型仍有局限性,其细粒度理解能力不足,采用原生多模态大模型有望解决上述问题,但多模态数据关联复杂、表征难、长序列高冗余等问题仍是挑战。

213027 833568 123

  介绍完发展现状,刘老师还分享了最前沿的多模态大模型研究进展,包括跨模态泛化、细粒度理解、多模态原生协同、多任务统一训练、多模态推理增强等前沿研究方向。刘老师还介绍了自己团队在图文音视多模态通用表征与关联学习、高效模态交互策略、高效模型架构、MOE高效训推架构等领域的最新研究进展。最后,刘老师总结了本次讲座的内容,提出了自己对于多模态大模型发展的思考与建议,并为其未来的发展进行了展望。讲座结束后,刘老师热心地解答了现场同学们提出的问题,现场掌声不断。本次讲座不仅为同学们带来了该领域的全景式介绍,更启发了大家对多模态大模型未来发展的深入思考。

更多专家信息:

  刘静,中国科学院自动化研究所研究员,国科大岗位教授,国家优青获得者。研究方向多模态分析理解,带领团队研发了国际首个图文音多模态大模型“紫东太初”。相关成果曾获中国电子学会自然科学一等奖,北京市自然科学二等奖,中国图象图形学学会科学技术二等奖,世界人工智能大会卓越人工智能引领者奖等。主持或参与十余项国家自然科学基金重点、科技部重点研发计划和省部级重点研发计划项目等。连续多年入选全球前2%顶尖科学家,已发表高水平学术论文近200篇,谷歌学术引用19000+次,SCI他引9000+次。荣获国际学术竞赛冠军十余项。