Thinking Machines 发布原生交互模型 TML-Interaction-Small 276B-A12B，推动实时语音 SOTA

Latent Space (Swyx)·2 个月前·约 8 分钟阅读

[AINews] Thinking Machines的本地交互模型-TML-Interaction-Small 276 B-A12 B-推进SOTA实时语音并杀死标准VAD干得好，Thinky队。

完全巧合的是，在我们发布Neil Zeghidour（Telecum的首席执行官，备受推崇的Kyutai Moshi的营利衍生品）关于实时语音剩余内容的演讲的那天，Thinking Machines在一年内仅第三次出现（尽管有很多戏剧性）放弃了交互模型：

人机协作的可扩展方法，TML-Interaction-Small是一个276 B参数MoE，活动12 B。

它立即推进了尼尔所阐述的实时语音模型的最新水平，用更详细的演示更新了著名的已死GPT 4 o“她”演示，这些演示可能更接近实际用途：完整的博客帖子有很多关于持续互动水平的演示，重点关注每个200 ms的“时间对齐微转弯”流：使用无编码器的早期融合，

图像和音频均处理时间<200 ms，类似于Meta的Chameleon：该团队展示了许多官方基准测试，可以击败GPT-Realtime-2和Gemini 3。

1-Flash支持BigBench音频、IFEval和FD-长凳等基本内容，但旨在实现的交互性水平需要为时间感知、同声翻译和视觉主动性制定2个新的内部基准：TimeSpeak：模型可以在用户指定的时间发起语音吗？

例如：“我想练习呼吸，提醒我每4秒吸一次，直到我要求你停下来。”CueSpeak：模特可以在适当的时候说话吗？示例：“每次我进行代码切换并使用另一种语言时，请给我原文中的正确单词。

”RepCount-A包含重复动作的视频，并被改编为在线计数任务-测量连续视觉跟踪和及时计数。Proactive VideoQA由带有问题的视频组成，问题的答案在特定时刻提供。分数越高需要在正确的时间得到正确的答案，保持沉默会得到部分学分，而不正确的答案会受到惩罚。

猜谜游戏是一个标准的时间动作本地化基准。流式传输用户音频指令：“当人们开始执行{action}时说‘开始’，然后当他们停止时说‘停止’。”但抛开这些数字：最发自内心的演示就是这个埋在底部的演示。

播放样本并感受AGI：结束语为Thinky的路线图留下了诱人的提示，包括背景代理与交互模型的有趣配对，我们非常喜欢它。人工智能新闻2026年9月5日至2026年11月5日。我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。

AINews的网站允许您搜索所有过去的问题。提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！

人工智能Twitter回顾思维机器的原生交互模型以及超越回合制人工智能的转变作为一流模型能力的双环多模式交互：当天最明确的技术主题是Thinking Machines对“交互模型”的预览，将其描述为从头开始训练以进行实时交互的模型，而不是将语音、

回合转换和工具使用分层到回合制LLM上。来自@johnschulman2、@soumithchintala和@cHHillee的随附技术帖子和团队评论将此描述为人类ParticipAI带宽问题：模型应该能够同时听、说、看、思考、搜索和反应。

Demos强调连续时间意识、中断处理、同步语音、视觉主动性和背景工具使用，没有明确的“现在我正在思考/现在我正在搜索”界限。团队成员还强调，一旦类型签名有效地连续音频+视频+文本→音频+文本（@ johnschulman 2），许多以前需要专用系统的任务就会变成零触发。

为什么它在技术上很重要：几种反应都集中在同一点上：这不是“另一个聊天机器人演示”，而是界面假设的变化。

@liliyu_lili指出，视觉主动性（“当我开始无精打采时告诉我”、“计算我的俯卧撑”）是当前系统中缺失的原始元素;@rown称其为第一个视觉主动性的通用视频+语音模型;@kimmonismus和@giffmana都强调，原生交互性是比原始基准声明更深层次的创新。

正如@swyx指出的那样，这次发布也含蓄地提高了“实时”多模式系统的门槛。一个实现细节通过@eliebakouch浮出水面：堆栈正在使用SGLang。

OpenAI的企业和安全推送：部署公司和DaybreakOpenAI正在向下推进服务和部署：OpenAI宣布成立OpenAI部署公司，这是一个拥有多数股权的部门，旨在帮助企业将前沿模型部署到实际工作流程中。

关键的运营细节是通过收购Tomoro引进150名前向部署工程师和部署专家，@gDB引用了来自19家合作伙伴的40亿美元初始投资。

多位观察家将其解读为OpenAI采用Palantir/Microsoft风格的现场工程模型：@kimmonismus认为OpenAI希望拥有人工智能经济的部署层，而@matvelloso则将其与历史上的企业成功模式联系起来，即将技术人员嵌入客户运营附近。

黎明：特定于安全的模型分发、工作流程和信任层：OpenAI还推出了Daybreak，这是一项围绕防御性网络操作和持续保护软件的伞式举措，@sama将其定位为对快速提高人工智能网络能力的实际响应。

@ TheRundown AI总结的产品推介结合了GPT-5。5、Codex、存储库威胁建模、vuln发现、补丁生成和响应自动化，具有差异化的访问层，包括Trusted Access for Cyber和更专业的GPT-5。

5-网络。这与Anthropic更具限制性的网络姿态形成鲜明对比，@kimmonismus捕捉到了这种紧张局势。

对于构建安全代理系统的团队来说，@lukOlejnik发出的单独警告很重要：“您的LLM不是安全边界”-据报道，Microsoft Semantic Killer允许将提示注入转化为主机级RCE，因为框架过度信任模型输出，而不是模型本身失败。

代理背带、本地优先工具和控制表面更好的代理控制平面正在成为一个产品类别：一个反复出现的抱怨是，有用的代理需要自治，但工程师仍然希望可逆的，可检查的控制。

@itsclelia使用aggit解决了这个问题，这是一个Rust CLI，用于本地/远程，S3支持的代理工件存储，在主Git历史之外启用stash/branch/restore语义。

同样，@_catwu强调了一个新的克劳德特工用于管理多个Claude Code代理的终端控制平面，@cursor_ai将Cursor推入Microsoft Teams，其中代理读取完整线程并打开PR。

这些都表明“代理编排”正在向具体的UX模式收敛，而不仅仅是提示技巧。

Deep Agents / Hermes / Local Agents正在迅速成熟：@ masondrzy指出，Deep Agents CLI可以在对话中热交换底层模型提供者，而不会丢失上下文，这是许多代理堆栈仍然缺少的一项重要系统功能。

LangChain还强调了针对提供商/型号特定调整的利用配置文件（推文），同一作者的单独定价分析认为，DeepSeek V4 Flash对于大容量代理工作负载来说可能比GPT/Gemini闪存层选项便宜得多（推文）。

在本地方面，Hugging Face在本地应用程序中添加了Hermes Agent支持以及本地跟踪可视化，而@Teknium则通过Hermes Agent和CUA预览了计算机与任何型号的使用，明确针对本地/开放型号以及前沿API。

@onusoz加入Hugging Face改进OpenClaw和相关开放式背带中的本地模型，这是本地代理人体工程学现已成为战略基础设施的另一个强烈信号。围绕工具出现的设计论文

原文出处

[AINews] Thinking Machines' Native Interaction Models - TML-Interaction-Small 276B-A12B - advances SOTA Realtime Voice and kills standard VAD

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

Thinking Machines 发布原生交互模型 TML-Interaction-Small 276B-A12B，推动实时语音 SOTA

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

Midjourney 收购占星社交应用 Co-Star，拓展产品线

硅谷在中国AI开放权重模型问题上严重分裂