精选· 重要性 4/5

Liquid AI发布8B-A1B MoE模型，训练于38T tokens

Hacker News (AI)·大约 2 个月前·simjnd·约 9 分钟阅读

社区热度 241 分

中文导读

Liquid AI推出LFM2.5-8B-A1B边缘模型，支持128K上下文和高效工具调用，在消费级硬件上实现快速推理，性能媲美更大模型。

今天，我们将发布LFM 2。5 - 8 B-A1 B，一款边缘型号，专为快速、可靠的工具调用消费者硬件而构建。它建立在我们2025年10月发布的LFM 2 - 8B-A1 B之上，具有扩展的128 K上下文窗口、扩展的预训练（从12 T到38 T令牌）和大规模强化学习。

我们还将词汇量增加了一倍，以提高非拉丁语言的标记化效率。其结果是一个可以链接工具调用、完成任务的模型，甚至可以舒适地安装在入门级笔记本电脑上。

基地（LFM 2. 5 - 8B-A1 B-Base）和后培训（LFM 2. 5 - 8B-A1 B）型号现已在Hugging Face和我们的Playground上发售。查看我们的文档，了解如何在本地运行和微调它们。

亮点- 设备上个人助理。旨在支持现实应用程序、链接工具调用并遵循所有设备上的复杂指令。- 压缩性能。在指令遵循和代理任务上与更大的密集和MoE模型竞争。- 无与伦比的吞吐量。在其大小级别中，在处理器和图形处理器上都是最快的，第一天就支持美洲驼。

cpp、MLX、vLLM和SGLang。自LFM 2 - 8B-A1 B以来发生了什么变化与LFM 2 - 8 B-A1 B相比，该新版本将上下文窗口从32，768个令牌扩展到128，000个令牌。

这使得模型能够处理更长的文档并推理更长的文档。其词汇量也从65，536扩大到128，000，以更有效地对非拉丁文字进行标记化。

我们看到印地语、泰国语、越南语、印度尼西亚语和阿拉伯语的压缩收益尤其强劲。该架构的其余部分遵循与LFM 2 - 8B-A1 B相同的MoE、GQA和门控短卷积块组合，如下图所示。与其前身LFM 2不同。

5- 8B-A1 B是一个推理模型，在最终答案之前产生一个明确的思想链。我们采用这种策略是因为MoE模型通常在计算限制的环境中运行，其中活动参数数量较少会使每个推理令牌便宜。这在不影响速度的情况下提供了显着的质量提升。

得益于推理和扩大训练，这个新版本的表现明显更好：培训亮点代币器扩展。LFM 2 - 8B-A1 B最初是使用针对我们初始语言覆盖范围进行优化的65 K BPE标记器训练的。为了更好地支持LFM 2中的非拉丁脚本。

5，我们通过扩展现有的标记化器而不是从头开始重新训练模型，将词汇量增加了一倍，达到128 K。.我们在多语言库上继续对原始合并进行BPE合并训练，该库将大多数现有的令牌ID保留为身份映射，并使每个新令牌确定性地分解为原始子令牌序列。

我们将新嵌入行初始化为其子令牌分解的平均值，并不改变地复制共享行。

然后，我们通过简短的两阶段适应来恢复质量：仅嵌入训练，然后是全模型持续预训练。下表报告了字符/令牌，大致每个令牌承载的文本量：越高越好，新的令牌化器在所有16种语言中效率更高上下文扩展。

我们首先通过专注于推理、数学、工具使用和更长文档的2 T令牌中间训练阶段将上下文窗口扩展到32 K。然后，我们通过增加RoPE基数θ并运行额外的400 B令牌中间训练阶段，将上下文扩展到128 K，重点关注长文档和长轨迹数据。

末日循环。我们添加了一个有针对性的偏好优化阶段，以减少长推理轨迹中的厄运循环。该阶段识别倾向于在特定上下文中触发循环行为的代币，然后将概率质量重新分配到合理的替代方案，同时保留下一个代币分布的其余部分基本上完好无损。

在RL期间，我们还添加了一个轻量级的塑造奖励，以阻止过度使用常见的导致循环的重启词，例如“等待……”。我们将在专门的博客文章中分享有关完整管道、客观和经验结果的更多详细信息。幻觉。由于参数数量较少，边缘模型的知识容量有限，从而导致更多的幻觉。

为了减轻幻觉，我们添加了一个有针对性的RL阶段，该阶段在不同的知识数据集上使用基于avg@ k的奖励。

目标是加强对超出可靠知识的查询的保密，同时保留现有知识。这产生了更清晰的知识边界和更清晰的不确定性表达。基准我们评估了LFM 2。5- 8 B-A1 B，涵盖知识、指令遵循、数学和代理工作流程。

该模型与参数总数相似且MoE大得多的两种密集替代方案都具有竞争力。基于avg@ k的奖励启用LFM 2。5- 8 B-A1 B实现显着降低幻觉率，同时保持合理的准确性。它还领先于基准测试的指令，以活动参数计数的一小部分匹配Gemma 4- 26 B等更大的MoE。

数学和代理工作流程在代理基准测试中，LFM 2。5- 8B-A1 B与更大的型号具有竞争力，在Tau 2-Telecom上尤其强劲。随着代理安全带正在成为消费车型的主要方式，LFM 2。5- 8B-A1 B是为设备上的完全私人代理提供动力的第一步。

稀疏推理，无处不在LFM 2. 5- 8B-A1 B在整个推理生态系统中提供第一天支持：- LEAP - Liquid的Edge AI平台，用于iOS和Android部署- 美洲驼。

cpp -用于高效边缘推断的GGUF检查点- MLX -针对Apple Silicon的优化推理- vLLM -为生产吞吐量提供运算处理- SGLang -基于GOP加速的生产吞吐量服务- ONNX -跨不同加速器的跨平台推理中央处理器推断。

LFM 2.

5- 8B-A1 B船载有第一天的美洲驼。cpp支持并在日常消费者硬件上运行。在这两款笔记本电脑级芯片上，它是我们测试的读取提示和生成答案的最快模型，M5 Max上每秒解码253个代币，Ryzen AI Max+ 395上每秒解码146个代币，同时保持在6 GB以下。

它甚至在手机上可容纳约30个代币/秒，因此功能强大的助手在您自己的设备上立即且私密地运行。图形处理器推断。我们通过对这些代码库的积极贡献来支持vLLM和SGLang的推理。

我们使用持续负载设置在单个NVIDIA H100 SXM 5图形处理器上测量输出吞吐量（总输出令牌除以停机时间）：在每个并发级别，我们持续维护正在进行的请求的目标数量，并立即替换每个已完成的请求。

我们使用SGLang 0对每个型号进行基准测试。5. BF 16中1，024个输入令牌，最多256个输出令牌，平均每个并发级别运行3次。LFM 2. 5- 8B-A1 B是同尺码级别中速度最快的型号，达到18。

高并发时每秒输出5 K令牌，超过1.单个H100上每天6 B代币。当地同事：看看它运行我们的开源桌面代理演示LocalCowork现在在LFM 2上运行。5- 8B-A1 B。

该设置与我们在3月份用于LFM 2 - 24 B-A2 B演示的设置相同：一台笔记本电脑、13个HCP服务器上的67个工具、没有云、没有API密钥、没有数据离开机器。在同一工具菜单中，工具选择更快，而且明显更可靠。

演示的重点不是单个工具。

问题在于，工具调度循环在消费者硬件上感觉是互动的：询问、提议、确认、运行、重复，每次调度都不到一秒，具有完整的审计跟踪，并且您的数据永远不会离开设备。开始使用LFM 2。5，我们正在实现在任何地方运行的人工智能愿景。

这些型号是：- 开放重量-无限制地下载、微调和部署- 从第一天起就快-对美洲驼的原生支持。

Apple、AMD、英特尔、高通和Nvidia硬件中的cpp、MLX、vLLM、SGLang- 一个完整的系列-从定制的基本型号到专业的音频和视觉变体，一个架构涵盖不同的用例设备上代理的未来从这里开始。

我们迫不及待地想看看您建造了什么。

原文出处

Liquid AI reveals 8B-A1B MoE trained on 38T

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

Liquid AI发布8B-A1B MoE模型，训练于38T tokens

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

Midjourney 收购占星社交应用 Co-Star，拓展产品线

硅谷在中国AI开放权重模型问题上严重分裂