声明:本文来自微信公众号“量子位”,作者:关注前沿科技,授权站长之家转载发布。
DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%!
名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。
与并行处理不同,CoE使专家能在单层内串行通信,形成一种迭代机制,即专家能“沟通”,在其它专家输出之上处理token。
研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了性能提升。
通过扩展CoE的迭代次数,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。
另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823倍。
目前,研究团队晒出了CoE技术Blog(完整论文即将发布),引起不少网友围观。
翻看作者主页,还发现作者Zihan Wang真曾在DeepSeek实习过