精选· 重要性 4/5

EpiCache：资源受限环境下长期对话的情景式KV缓存管理

Apple Machine Learning Research·2 个月前·约 3 分钟阅读

中文导读

苹果研究团队提出EpiCache框架，通过情景式KV压缩和逐块预填充，在固定内存预算下实现长对话问答的高效缓存管理，显著提升准确率并降低延迟和峰值内存。

EpiCache：用于资源受限环境下长期对话的情景式KV缓存管理作者：Minsoo Kim、Arnav Kundu、Han-Byul Kim、Richa Dixit、Minsik Cho内容类型：论文，

发表于2026年5月现代大型语言模型（LLM）将上下文长度扩展到数百万个token，从而能够基于漫长的对话历史生成连贯且个性化的响应。然而，Key-Value（KV）缓存随对话历史扩展而线性增长，导致模型的内存占用迅速超出设备限制。

虽然最近的KV缓存压缩方法试图减少内存使用，但大多数方法在处理整个上下文后才进行缓存驱逐，导致峰值内存使用无界。此外，依赖于查询的驱逐将缓存语义缩小到单个查询，导致多轮对话中的失败案例。

在本文中，我们介绍了EpiCache，这是一个无需训练的KV缓存管理框架，用于在固定内存预算下进行长对话问答（LongConvQA）。

EpiCache通过逐块预填充来限制缓存增长，并通过情景式KV压缩保留与主题相关的上下文，该压缩将对话历史聚类为连贯的情景，并执行特定于情景的KV缓存驱逐。

在三个LongConvQA基准测试（LongMemEval、Realtalk和LoCoMo）中，EpiCache将准确率提高了高达30%，在4-6倍压缩下实现了接近全缓存的准确率，并将延迟和峰值内存分别降低了高达2.4倍和3.7倍。

随机KV路由：实现自适应深度缓存共享2026年5月5日，研究领域：方法与算法，语音与自然语言处理为Transformer语言模型提供高吞吐量服务需要缓存Key-Values（KV），以避免自回归生成期间的冗余计算。

KV缓存的内存占用很大，严重影响服务成本。这项工作旨在减少这些内存需求。

虽然最近的工作主要通过沿时间轴进行压缩和驱逐来减少KV缓存，但我们认为深度维度提供了…CommVQ：用于KV缓存压缩的交换式向量量化2025年7月11日，研究领域：语音与自然语言处理，会议：ICML大型语言模型（LLM）越来越多地用于需要长上下文长度的应用，

但随着上下文长度的增长，key-value（KV）缓存经常成为GPU上的内存瓶颈。为了解决这个问题，我们提出了交换式向量量化（CommVQ），以显著减少长上下文LLM推理的内存使用。首先，我们利用加法量化，通过引入轻量级编码器和码本来压缩KV…

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读