数据统计：152个主题分类，2638个优秀站点，10916篇站长资讯

快捷方式：网站提交 - 软文投稿 - 帮助中心

当前位置：一起上网站目录 » 站长资讯 » 行业新闻 » 文章详细

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

来源：站长之家　浏览：50次　时间：2025-03-05

声明：本文来自微信公众号“量子位”，作者:关注前沿科技，授权站长之家转载发布。

DeepSeek MoE“变体”来了，200美元以内，内存需求减少17.6-42%!

名叫CoE（Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同，CoE使专家能在单层内串行通信，形成一种迭代机制，即专家能“沟通”，在其它专家输出之上处理token。

研究团队在实验中发现，经过2次迭代的CoE，在相同的计算预算下将数学任务的验证损失从1.20降低至1.12，仅仅通过重构信息流就获得了性能提升。

通过扩展CoE的迭代次数，在性能相当的情况下，内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。

另外，在专家组合自由度、专家使用效率等其它方面，CoE也都具有显著优势，专家组合增加823倍。

目前，研究团队晒出了CoE技术Blog（完整论文即将发布），引起不少网友围观。

翻看作者主页，还发现作者Zihan Wang真曾在DeepSeek实习过

推荐资讯

推荐站点

0502站长工具网
0502站长工具网为您提供json格式化,json代码压缩,json校验解析,json数组解析,json转xml,xml转json,json解析,json在线解析,json在线解析及格式化,unix时间戳转换,CSS美化压缩,json美化,json格式化输出,json数组,json实体类,json视图等
www.0502.net
24gym
24gym是国内领先的健身房智能化整体解决方案提供商，致力于研发健身领域的软硬件产品，打造24小时健身房，颠覆传统健身房，创建10分钟健身圈，欢迎意向投资健身房、智能健身房加盟的人士与我们联系，将为你提供健身房经营更优解决方案。
www.24gym.cn
堆糖
堆糖，美图壁纸兴趣社区。收录几十亿高清优质图片，数千万用户的珍藏分享，一键收藏下载美图，点亮生活无限灵感，做你的美好研究所：拥有高清壁纸、情侣头像、明星爱豆、影视动漫、情感文字、表情包、绘画手帐、P图教程、美妆穿搭、歌词台词、可爱萌宠等多种图片分类。你想要的风景壁纸、聊天背景、朋友圈背景、动漫头像都可以在这里找到。
www.duitang.com
图片之家
图片之家_是以摄影图片大全为主国内综合性图片的网站,致力于打造各类好看的图片,包括奇闻异事图片,装修效果图,搞笑图片,搞笑动态图片,美女图片,美女人体艺术,发型图片,创意家居,创意广告设计,桌面壁纸,摄影作品等精选图片大全等你来挖掘。
www.tupianzj.com
煎蛋
煎蛋以译介方式传播网络新鲜资讯
jandan.net