SpecMD:关于推测专家预取的综合研究
SpecMD:关于推测专家预取的综合研究作者Duc Hoang、Ajay Jaiswal、Mohammad Samragh Razlighi、Minsik Cho内容类型论文发表于2026年5月SpecMD:关于推测专家预取的综合研究作者Duc Hoang、
Ajay Jaiswal、Mohammad Samragh Razlighi、Minsik Cho专家混合(MoE)模型支持稀疏专家激活,这意味着每次推理期间仅使用模型参数的一个子集。然而,为了将这种稀疏性转化为实际性能,需要专家缓存机制。
之前的作品提出了以硬件为中心的缓存策略,但这些不同的缓存策略如何相互作用以及不同的硬件规范仍然知之甚少。为了解决这一差距,我们开发了SpecMD,这是一个标准化框架,用于在各种硬件配置上对临时缓存策略进行基准测试。
使用SpecMD,我们对多种MoE缓存策略进行了详尽的基准测试,在具有现实约束的受控环境中复制和扩展先前的方法。我们的实验表明,MoE专家访问与时间局部性假设不一致(例如。g TLR、LFU)。
受这一观察结果的启发,我们提出了Least-Stale,这是一种新颖的驱逐政策,它利用MoE的可预测专家访问模式,将碰撞未命中率减少多达85倍。凭借这些收益,我们的点击率超过88%,高达34%。
OLMoE上的首次代币时间(TTFT)仅减少5%或0.
6 GB VRAM缓存容量。随机KV路由:启用自适应深度缓存共享2026年5月5日研究领域方法和算法,研究领域语音和自然语言处理为具有高吞吐量的Transformer语言模型提供服务需要缓存Key-Values(KV),以避免自回归生成期间的冗余计算。
KV缓存的内存占用量很大,并且严重影响服务成本。这项工作建议减少这些内存需求。虽然最近的工作主要解决了通过沿着时间轴的压缩和驱逐来减少KV缓存,但我们认为深度维度提供了.MoE比您想象的更强大:使用RoE进行超并行推理缩放2026年1月12日研究领域数据科学与注释,
研究领域语音和自然语言处理大型语言模型(LLM)的生成质量通常通过利用推理时序列级缩放方法(例如G.、思想链)。我们引入了超并行扩展,这是一种补充框架,可以提高代币级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出提案。
我们在专家混合(MoE)模型中实现这一概念,该模型.