AI 见闻
精选· 重要性 4/5

Liquid AI发布8B-A1B MoE模型,训练于38T tokens

Hacker News (AI)··simjnd·约 9 分钟阅读
Hacker News 241
中文导读

Liquid AI推出LFM2.5-8B-A1B边缘模型,支持128K上下文和高效工具调用,在消费级硬件上实现快速推理,性能媲美更大模型。

今天,我们将发布LFM 2。5 - 8 B-A1 B,一款边缘型号,专为快速、可靠的工具调用消费者硬件而构建。它建立在我们2025年10月发布的LFM 2 - 8B-A1 B之上,具有扩展的128 K上下文窗口、扩展的预训练(从12 T到38 T令牌)和大规模强化学习。

我们还将词汇量增加了一倍,以提高非拉丁语言的标记化效率。其结果是一个可以链接工具调用、完成任务的模型,甚至可以舒适地安装在入门级笔记本电脑上。

基地(LFM 2. 5 - 8B-A1 B-Base)和后培训(LFM 2. 5 - 8B-A1 B)型号现已在Hugging Face和我们的Playground上发售。查看我们的文档,了解如何在本地运行和微调它们。

亮点- 设备上个人助理。旨在支持现实应用程序、链接工具调用并遵循所有设备上的复杂指令。- 压缩性能。在指令遵循和代理任务上与更大的密集和MoE模型竞争。- 无与伦比的吞吐量。在其大小级别中,在处理器和图形处理器上都是最快的,第一天就支持美洲驼。

cpp、MLX、vLLM和SGLang。自LFM 2 - 8B-A1 B以来发生了什么变化与LFM 2 - 8 B-A1 B相比,该新版本将上下文窗口从32,768个令牌扩展到128,000个令牌。

这使得模型能够处理更长的文档并推理更长的文档。其词汇量也从65,536扩大到128,000,以更有效地对非拉丁文字进行标记化。

我们看到印地语、泰国语、越南语、印度尼西亚语和阿拉伯语的压缩收益尤其强劲。该架构的其余部分遵循与LFM 2 - 8B-A1 B相同的MoE、GQA和门控短卷积块组合,如下图所示。与其前身LFM 2不同。

5- 8B-A1 B是一个推理模型,在最终答案之前产生一个明确的思想链。我们采用这种策略是因为MoE模型通常在计算限制的环境中运行,其中活动参数数量较少会使每个推理令牌便宜。这在不影响速度的情况下提供了显着的质量提升。

得益于推理和扩大训练,这个新版本的表现明显更好:培训亮点代币器扩展。LFM 2 - 8B-A1 B最初是使用针对我们初始语言覆盖范围进行优化的65 K BPE标记器训练的。为了更好地支持LFM 2中的非拉丁脚本。

5,我们通过扩展现有的标记化器而不是从头开始重新训练模型,将词汇量增加了一倍,达到128 K。.我们在多语言库上继续对原始合并进行BPE合并训练,该库将大多数现有的令牌ID保留为身份映射,并使每个新令牌确定性地分解为原始子令牌序列。

我们将新嵌入行初始化为其子令牌分解的平均值,并不改变地复制共享行。

然后,我们通过简短的两阶段适应来恢复质量:仅嵌入训练,然后是全模型持续预训练。下表报告了字符/令牌,大致每个令牌承载的文本量:越高越好,新的令牌化器在所有16种语言中效率更高上下文扩展。

我们首先通过专注于推理、数学、工具使用和更长文档的2 T令牌中间训练阶段将上下文窗口扩展到32 K。然后,我们通过增加RoPE基数θ并运行额外的400 B令牌中间训练阶段,将上下文扩展到128 K,重点关注长文档和长轨迹数据。

末日循环。我们添加了一个有针对性的偏好优化阶段,以减少长推理轨迹中的厄运循环。该阶段识别倾向于在特定上下文中触发循环行为的代币,然后将概率质量重新分配到合理的替代方案,同时保留下一个代币分布的其余部分基本上完好无损。

在RL期间,我们还添加了一个轻量级的塑造奖励,以阻止过度使用常见的导致循环的重启词,例如“等待……”。我们将在专门的博客文章中分享有关完整管道、客观和经验结果的更多详细信息。幻觉。由于参数数量较少,边缘模型的知识容量有限,从而导致更多的幻觉。

为了减轻幻觉,我们添加了一个有针对性的RL阶段,该阶段在不同的知识数据集上使用基于avg@ k的奖励。

目标是加强对超出可靠知识的查询的保密,同时保留现有知识。这产生了更清晰的知识边界和更清晰的不确定性表达。基准我们评估了LFM 2。5- 8 B-A1 B,涵盖知识、指令遵循、数学和代理工作流程。

该模型与参数总数相似且MoE大得多的两种密集替代方案都具有竞争力。基于avg@ k的奖励启用LFM 2。5- 8 B-A1 B实现显着降低幻觉率,同时保持合理的准确性。它还领先于基准测试的指令,以活动参数计数的一小部分匹配Gemma 4- 26 B等更大的MoE。

数学和代理工作流程在代理基准测试中,LFM 2。5- 8B-A1 B与更大的型号具有竞争力,在Tau 2-Telecom上尤其强劲。随着代理安全带正在成为消费车型的主要方式,LFM 2。5- 8B-A1 B是为设备上的完全私人代理提供动力的第一步。

稀疏推理,无处不在LFM 2. 5- 8B-A1 B在整个推理生态系统中提供第一天支持:- LEAP - Liquid的Edge AI平台,用于iOS和Android部署- 美洲驼。

cpp -用于高效边缘推断的GGUF检查点- MLX -针对Apple Silicon的优化推理- vLLM -为生产吞吐量提供运算处理- SGLang -基于GOP加速的生产吞吐量服务- ONNX -跨不同加速器的跨平台推理中央处理器推断。

LFM 2.

5- 8B-A1 B船载有第一天的美洲驼。cpp支持并在日常消费者硬件上运行。在这两款笔记本电脑级芯片上,它是我们测试的读取提示和生成答案的最快模型,M5 Max上每秒解码253个代币,Ryzen AI Max+ 395上每秒解码146个代币,同时保持在6 GB以下。

它甚至在手机上可容纳约30个代币/秒,因此功能强大的助手在您自己的设备上立即且私密地运行。图形处理器推断。我们通过对这些代码库的积极贡献来支持vLLM和SGLang的推理。

我们使用持续负载设置在单个NVIDIA H100 SXM 5图形处理器上测量输出吞吐量(总输出令牌除以停机时间):在每个并发级别,我们持续维护正在进行的请求的目标数量,并立即替换每个已完成的请求。

我们使用SGLang 0对每个型号进行基准测试。5. BF 16中1,024个输入令牌,最多256个输出令牌,平均每个并发级别运行3次。LFM 2. 5- 8B-A1 B是同尺码级别中速度最快的型号,达到18。

高并发时每秒输出5 K令牌,超过1.单个H100上每天6 B代币。当地同事:看看它运行我们的开源桌面代理演示LocalCowork现在在LFM 2上运行。5- 8B-A1 B。

该设置与我们在3月份用于LFM 2 - 24 B-A2 B演示的设置相同:一台笔记本电脑、13个HCP服务器上的67个工具、没有云、没有API密钥、没有数据离开机器。在同一工具菜单中,工具选择更快,而且明显更可靠。

演示的重点不是单个工具。

问题在于,工具调度循环在消费者硬件上感觉是互动的:询问、提议、确认、运行、重复,每次调度都不到一秒,具有完整的审计跟踪,并且您的数据永远不会离开设备。开始使用LFM 2。5,我们正在实现在任何地方运行的人工智能愿景。

这些型号是:- 开放重量-无限制地下载、微调和部署- 从第一天起就快-对美洲驼的原生支持。

Apple、AMD、英特尔、高通和Nvidia硬件中的cpp、MLX、vLLM、SGLang- 一个完整的系列-从定制的基本型号到专业的音频和视觉变体,一个架构涵盖不同的用例设备上代理的未来从这里开始。

我们迫不及待地想看看您建造了什么。

原文出处
Liquid AI reveals 8B-A1B MoE trained on 38T

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读