[AINews]如何在前沿实验室找到工作(关于预培训)
[AINews]如何在前沿实验室找到工作(关于预培训)Google I/O让我们放大一篇著名博客帖子之前的安静一天这是Google I/O的前一天,预计将预览下一个主要的Gemini版本,这对竞争对手来说可能会是安静的一周,
尽管Anthropic和OpenAI今天都取得了小胜利,Cursor发布了他们的第一个SpaceXAI模型,其中包含一些关于合成数据/奖励黑客的精彩细节,并继续使用Muon进行预训练。
然而,今天可能持久的标题故事候选人将是弗拉德·范伯格(可以理解,以Google/pu为中心)关于工作准备的笔记,特别是关于预培训:具体来说,他参考了DeepMind去年的Scaling手册,而内核工作是一个重要部分:所有LLM工作的最大瓶颈和最内循环是性能工作,
它使LLM的抽象、逻辑更改实际运行。每个项目都需要能够在内核级别调整LLM的人员。这是一项您可以掌握的技能,也是进入实验室的最直接途径。
令人惊讶的是提到了用于内核开发的DSA,其中有一段简短的历史:对于这个级别的人来说,令人惊讶的是,他还提到了autosreasury和AlphaEvolve等Agent Work。
他以一个令人惊讶的简单练习结束:但真正的招聘测试在下面的段落中:为此推导出Chinchilla定律;了解密集架构与MoE架构的差异。
如果您确实想要学习体验,请在收件箱中手工从头开始编写您的解决方案。接下来,假设您使用了收件箱。松懈。ragged_dot用于MoE层;编写一个pallas内核,通过融合上/下投影来击败F > D的ragged dot。
找到一个你注意到向前传球加速的地方,并解释为什么会这样。如果你能把这一点教给社区的其他人,我们很乐意让你成为研讨会的演讲者。
AI News for 5/16/2026-5/18/2026.我们检查了12个subreddits、544个Twitter用户,没有进一步的Discords。AINews的网站允许您搜索所有过去的问题。
提醒您的是,AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率!人工智能Twitter回顾编码代理、代理运营以及从聊天到自动化的转变代理基础设施正在向可观察性+自动化循环融合:几篇文章指出生产代理的堆栈正在成熟。
LangSmith Engine被构建为代理缺失的CI/CD循环,自动检测生产跟踪中的故障、集群问题以及起草修复/评估,LangChain还强调SmithDB是一个专门构建的数据层,用于代理可观察性/评估工作负载,
具有对大型跟踪进行低延迟查询和自托管/多云要求@krishdpi,@LangChain。
与此同时,Cognition推出了Devin Auto-Triage,将其定位为具有长期记忆,管理器/子代理结构和PR生成的错误,警报和事件的始终在线的“第一响应者”;
像Modal这样的早期用户描述它比典型的本土分类自动化更有用@cognition,@walden_yan,@russelljkaplan。常见的模式是更少的“与代理聊天”,更多的是与跟踪、内存和评估相关的持久自动化。
编码代理的操作模式变得越来越具体:Anthropic发布了在数百万行的monorepos,遗留系统和微服务中运行Claude Code的最佳实践,同时添加了提示缓存诊断并将Fast模式默认为Opus 4。
7用于低延迟编码工作流@ClaudeDevs,@ClaudeDevs,@ClaudeDevs。
OpenAI通过Zoom插件、移动/桌面远程执行和“保持Mac清醒”支持扩展了Codex工作流程,以便可以从手机应用程序@coreyching、@OpenAidevs继续运行更长时间的作业。
微软将GitHub Copilot CLI和VS Code的远程控制推送到GA @code。在这些方面,产品方向很明确:后台执行、远程监督和代理散开,而不仅仅是交互式完成。
从业者正在趋同于同一个心理模型:约束、验证、分解:弗朗索瓦·肖尔特(François Chollet)将编码代理框架为“盲松鼠”,需要精心放置的可验证约束,这简洁地匹配了向以利用为中心的工程的更广泛转变@fchollet。
相关建议包括在Python/ML代码中大量使用断言来快速失败@gabriberton,为长期运行的代理构建端到端和增量评估@palashshah,以及以阶段成熟度级别构建多代理系统,而不是过早地最大化代理数量@shannholmberg。
实践共识:代理质量更多地取决于验证表面、分解和反馈循环,而不是仅仅取决于即时聪明。模型发布、排名变化和前沿编码模型Cursor ' s作曲家2。5是这一批中最出色的型号发布:Cursor宣布推出Composer 2。
5是迄今为止最强大的模型,强调在长期运行的任务上更好地持续工作和更可靠的指令遵循,然后披露了一个更深层次的战略举措:使用“SpaceXAI”从头开始训练更大的模型,使用10倍的总计算量并访问《巨人2》的百万个H100等效值@cursor_ai,@cursor_ai。
社区反应集中在其效率/性价比和强大的编码质量上,用户称其是Composer 2的重大进步,并指出消息/更新中更好的协作行为,而不仅仅是原始基准收益@mntruell、@jonas_nelle、@kimmonismus。
阿里巴巴Qwen系列继续攀升:Qwen 3. 7预览版与Qwen 3一起登陆Arena。7最大预览文本中#13,包括#7 Math、#9 Expert、#9 Software & IT以及#10 Coding;
Qwen 3。
7 Plus Preview总体愿景排名第16位,使阿里巴巴成为Arena的@arena、@Alibaba_Qwen统计的文本实验室和愿景实验室。这强化了中国实验室在综合和专业领域稳步进步的更广泛趋势,而不仅仅是头条聊天基准。
开放模型和多模态发布继续在大型前沿之下:字节跳动开源Lance,被描述为用于图像/视频理解、生成和编辑的统一多模态模型,具有3B视频+ 3B图像+ 3B解码器组件@bdsqlsz。
Perplexity发布了一个小型开放多语言ColBERT模型,作为pplx-embed-0的持续训练变体。6 b,附有有关使用MaxSim内核的注释@bo_wangbo。
这些不是前沿规模的发布,但它们在技术上具有意义,因为它们的目标是检索质量和本地多模式统一,这两个领域开放工具仍然很重要。推理、部署和本地/企业服务通过美洲驼中的STP,局部推理的速度显着提高。
cpp:Georgi Gerganov宣布STP支持Qwen 3。骆驼中的6个家庭。cpp,称其为当地AI @ gggerganov的一个重要里程碑。后续报告显示了有意义的吞吐量增长,包括Qwen 3。
使用draft-STP flags @victormustar,A10 G上的6- 27 B密集跃升从25 tok/s跃升至45 tok/s(+78%)。这很重要,因为它缩小了本地和托管编码/通用助理在商品硬件上的可用性差距。
企业/本地部署势头仍然强劲:Hugging Face和戴尔推动了对包括Kimi K2在内的型号的一键访问。6、DeepSeek V4 Pro/Flash、GLM 5。1和MiniMax M2。
7,通过NVIDIA B300@jeffboudier针对RJ 9780进行优化的戴尔企业中心。
Clement Delangue认为,基于开源模型的本地/本地人工智能将是解决图形处理器短缺问题的重要解决方案,在成本、延迟和安全/数据控制方面具有优势@ClementDelangue。
跨硬件推理优化变得越来越复杂:Zyphra发布了针对AMD Instinct MI 355 X的端到端推理基准,声称其性能优于AMD的基线,并且在为Kimi K2服务时与NVIDIA B200的差距缩小。
6、GLM 5。1,和DeepSeek V3。2@ZyphraAI。作为补充,昆汀·安东尼(Quentin Anthony)发布了一篇有用的帖子,解释了为什么基准测试需要区分硬件上限与当前软件状态,并认为许多跨栈合作