AI 见闻
精选· 重要性 4/5

EpiCache:资源受限环境下长期对话的情景式KV缓存管理

Apple Machine Learning Research··约 3 分钟阅读
中文导读

苹果研究团队提出EpiCache框架,通过情景式KV压缩和逐块预填充,在固定内存预算下实现长对话问答的高效缓存管理,显著提升准确率并降低延迟和峰值内存。

EpiCache:用于资源受限环境下长期对话的情景式KV缓存管理作者:Minsoo Kim、Arnav Kundu、Han-Byul Kim、Richa Dixit、Minsik Cho内容类型:论文,

发表于2026年5月现代大型语言模型(LLM)将上下文长度扩展到数百万个token,从而能够基于漫长的对话历史生成连贯且个性化的响应。然而,Key-Value(KV)缓存随对话历史扩展而线性增长,导致模型的内存占用迅速超出设备限制。

虽然最近的KV缓存压缩方法试图减少内存使用,但大多数方法在处理整个上下文后才进行缓存驱逐,导致峰值内存使用无界。此外,依赖于查询的驱逐将缓存语义缩小到单个查询,导致多轮对话中的失败案例。

在本文中,我们介绍了EpiCache,这是一个无需训练的KV缓存管理框架,用于在固定内存预算下进行长对话问答(LongConvQA)。

EpiCache通过逐块预填充来限制缓存增长,并通过情景式KV压缩保留与主题相关的上下文,该压缩将对话历史聚类为连贯的情景,并执行特定于情景的KV缓存驱逐。

在三个LongConvQA基准测试(LongMemEval、Realtalk和LoCoMo)中,EpiCache将准确率提高了高达30%,在4-6倍压缩下实现了接近全缓存的准确率,并将延迟和峰值内存分别降低了高达2.4倍和3.7倍。

随机KV路由:实现自适应深度缓存共享2026年5月5日,研究领域:方法与算法,语音与自然语言处理为Transformer语言模型提供高吞吐量服务需要缓存Key-Values(KV),以避免自回归生成期间的冗余计算。

KV缓存的内存占用很大,严重影响服务成本。这项工作旨在减少这些内存需求。

虽然最近的工作主要通过沿时间轴进行压缩和驱逐来减少KV缓存,但我们认为深度维度提供了…CommVQ:用于KV缓存压缩的交换式向量量化2025年7月11日,研究领域:语音与自然语言处理,会议:ICML大型语言模型(LLM)越来越多地用于需要长上下文长度的应用,

但随着上下文长度的增长,key-value(KV)缓存经常成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换式向量量化(CommVQ),以显著减少长上下文LLM推理的内存使用。首先,我们利用加法量化,通过引入轻量级编码器和码本来压缩KV…

原文出处
EpiCache: Episodic KV Cache Management for Long-Term Conversation on Resource-Constrained Environments

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读