中国教育家协会诚邀学校教育机构广泛联盟,多赢合作共谋发展!

本站首页 广告服务 旧版回顾 会员注册 会员服务 申请友情连接

全国优秀研究生院校报考指南 中国教育第一网欢迎您!今天是

用户登陆口

首页 教育新闻 院校大全 高考招生 考研招生 留学移民 电脑培训 中考信息
各省动态 少儿教育 家庭教育 远程教育 特殊教育 职成教育 就业中心 教育家
教学技术 教学产品 科技发展 高校后勤 教育论坛 热点资讯 国际交际 教育博客
资讯搜索:

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

--------------------------------------------------------------------------------
点击次数:254  发布时间:2025-7-31 17:58:34

 

随着以 Sora 为代表的视频生成模型技术的演进,长视频生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学 鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾AI基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了视频生成过程中的计算效率。

针对长序列视觉指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列视觉指令生成框架LIGER,实现了历史提示和视觉记忆机制,以及基于DDIM反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。

在计算效率方面,项目团队提出了基于昇腾平台优化的引导式渐进蒸馏方法,通过在线教师引导、渐进式蒸馏和高频细节保护三项关键技术,成功加速了视频扩散模型的生成过程。该方法让教师模型实时优化学生模型的中间预测以创建自适应训练目标,通过多阶段训练逐步增加步长将复杂轨迹学习分解为可管理的任务,并引入频域损失函数保持视频精细细节。在保持视频高质量输出基础上,该方法实现8倍加速。

该项目创新性地将大语言模型推理能力与视频生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能顶级会议ICLR 2025,获得国际学术界的高度认可。项目构建的包含569个任务的评估数据集,为后续研究提供了重要基准。

未来,浙江大学 鲲鹏昇腾科教创新卓越中心将依托昇腾AI基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。


 


—— 信息源自:

 
产品推荐


中国教育家协会 版权所有
中华人民共和国 京ICP证000045号-83
项目合作:010-64803353
邮箱:bj64801986@126.com

香港通讯地址:香港兴发街邮政局38062信箱
中国香港政府注册登记号:18159887-038-01-06-0
咨询电话:010-64803658 香港电话:852-2915.7428 传真:852-2915.6313