中国教育家协会诚邀学校教育机构广泛联盟,多赢合作共谋发展!

本站首页 广告服务 旧版回顾 会员注册 会员服务 申请友情连接

全国优秀研究生院校报考指南 中国教育第一网欢迎您!今天是

用户登陆口

首页 教育新闻 院校大全 高考招生 考研招生 留学移民 电脑培训 中考信息
各省动态 少儿教育 家庭教育 远程教育 特殊教育 职成教育 就业中心 教育家
教学技术 教学产品 科技发展 高校后勤 教育论坛 热点资讯 国际交际 教育博客
资讯搜索:

北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

--------------------------------------------------------------------------------
点击次数:265  发布时间:2025-7-28 18:18:51

 

在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高效的大模型训练推理架构,实现了百万tokens输入成本低至1元,为产业提供了高效能、低成本的解决方案。

此研究成果包括三项关键技术创新。首先,目前广泛使用的相对位置编码存在较大的稀疏性,团队通过将每个注意力头中的位置信息和非位置信息分离,对位置编码进行了低秩压缩,仅使用3%的位置信息,即可维持原有表达能力。该方法通过优化昇腾硬件的flash-attention算子,使得注意力头的参数得到更高效利用。

第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合KV的低秩压缩方法,仅保留12.5%的KV Cache即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。

最后,基于昇腾硬件在出色的并行计算能力,团队实现的Recurrent Decoding(RD)技术通过替换LM-head提升了训练数据利用率并加速了推理。在训练阶段,RD通过将解码出的多个tokens与target tokens进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了tokens的采样通过率,进而提升了推理速度。

这一成果得到了学术界的广泛关注,不仅为科研提供了可复用的高效架构,也为AI大模型在企业中的应用大幅降低了成本。自去年6月成立以来,北京大学与华为在产业前沿课题的联合攻关持续推进,本次成果验证了昇腾算力平台支撑尖端科研的技术实力。卓越中心将继续深入开展大模型关键技术创新,为构建中国技术生态提供坚实支撑。

 


—— 信息源自:

 
产品推荐


中国教育家协会 版权所有
中华人民共和国 京ICP证000045号-83
项目合作:010-64803353
邮箱:bj64801986@126.com

香港通讯地址:香港兴发街邮政局38062信箱
中国香港政府注册登记号:18159887-038-01-06-0
咨询电话:010-64803658 香港电话:852-2915.7428 传真:852-2915.6313