前沿实验室求职指南：预训练方向

Latent Space (Swyx)·2 个月前·约 8 分钟阅读

[AINews]如何在前沿实验室找到工作（关于预培训）Google I/O让我们放大一篇著名博客帖子之前的安静一天这是Google I/O的前一天，预计将预览下一个主要的Gemini版本，这对竞争对手来说可能会是安静的一周，

尽管Anthropic和OpenAI今天都取得了小胜利，Cursor发布了他们的第一个SpaceXAI模型，其中包含一些关于合成数据/奖励黑客的精彩细节，并继续使用Muon进行预训练。

然而，今天可能持久的标题故事候选人将是弗拉德·范伯格（可以理解，以Google/pu为中心）关于工作准备的笔记，特别是关于预培训：具体来说，他参考了DeepMind去年的Scaling手册，而内核工作是一个重要部分：所有LLM工作的最大瓶颈和最内循环是性能工作，

它使LLM的抽象、逻辑更改实际运行。每个项目都需要能够在内核级别调整LLM的人员。这是一项您可以掌握的技能，也是进入实验室的最直接途径。

令人惊讶的是提到了用于内核开发的DSA，其中有一段简短的历史：对于这个级别的人来说，令人惊讶的是，他还提到了autosreasury和AlphaEvolve等Agent Work。

他以一个令人惊讶的简单练习结束：但真正的招聘测试在下面的段落中：为此推导出Chinchilla定律;了解密集架构与MoE架构的差异。

如果您确实想要学习体验，请在收件箱中手工从头开始编写您的解决方案。接下来，假设您使用了收件箱。松懈。ragged_dot用于MoE层;编写一个pallas内核，通过融合上/下投影来击败F > D的ragged dot。

找到一个你注意到向前传球加速的地方，并解释为什么会这样。如果你能把这一点教给社区的其他人，我们很乐意让你成为研讨会的演讲者。

AI News for 5/16/2026-5/18/2026.我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。AINews的网站允许您搜索所有过去的问题。

提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！人工智能Twitter回顾编码代理、代理运营以及从聊天到自动化的转变代理基础设施正在向可观察性+自动化循环融合：几篇文章指出生产代理的堆栈正在成熟。

LangSmith Engine被构建为代理缺失的CI/CD循环，自动检测生产跟踪中的故障、集群问题以及起草修复/评估，LangChain还强调SmithDB是一个专门构建的数据层，用于代理可观察性/评估工作负载，

具有对大型跟踪进行低延迟查询和自托管/多云要求@krishdpi，@LangChain。

与此同时，Cognition推出了Devin Auto-Triage，将其定位为具有长期记忆，管理器/子代理结构和PR生成的错误，警报和事件的始终在线的“第一响应者”;

像Modal这样的早期用户描述它比典型的本土分类自动化更有用@cognition，@walden_yan，@russelljkaplan。常见的模式是更少的“与代理聊天”，更多的是与跟踪、内存和评估相关的持久自动化。

编码代理的操作模式变得越来越具体：Anthropic发布了在数百万行的monorepos，遗留系统和微服务中运行Claude Code的最佳实践，同时添加了提示缓存诊断并将Fast模式默认为Opus 4。

7用于低延迟编码工作流@ClaudeDevs，@ClaudeDevs，@ClaudeDevs。

OpenAI通过Zoom插件、移动/桌面远程执行和“保持Mac清醒”支持扩展了Codex工作流程，以便可以从手机应用程序@coreyching、@OpenAidevs继续运行更长时间的作业。

微软将GitHub Copilot CLI和VS Code的远程控制推送到GA @code。在这些方面，产品方向很明确：后台执行、远程监督和代理散开，而不仅仅是交互式完成。

从业者正在趋同于同一个心理模型：约束、验证、分解：弗朗索瓦·肖尔特（François Chollet）将编码代理框架为“盲松鼠”，需要精心放置的可验证约束，这简洁地匹配了向以利用为中心的工程的更广泛转变@fchollet。

相关建议包括在Python/ML代码中大量使用断言来快速失败@gabriberton，为长期运行的代理构建端到端和增量评估@palashshah，以及以阶段成熟度级别构建多代理系统，而不是过早地最大化代理数量@shannholmberg。

实践共识：代理质量更多地取决于验证表面、分解和反馈循环，而不是仅仅取决于即时聪明。模型发布、排名变化和前沿编码模型Cursor ' s作曲家2。5是这一批中最出色的型号发布：Cursor宣布推出Composer 2。

5是迄今为止最强大的模型，强调在长期运行的任务上更好地持续工作和更可靠的指令遵循，然后披露了一个更深层次的战略举措：使用“SpaceXAI”从头开始训练更大的模型，使用10倍的总计算量并访问《巨人2》的百万个H100等效值@cursor_ai，@cursor_ai。

社区反应集中在其效率/性价比和强大的编码质量上，用户称其是Composer 2的重大进步，并指出消息/更新中更好的协作行为，而不仅仅是原始基准收益@mntruell、@jonas_nelle、@kimmonismus。

阿里巴巴Qwen系列继续攀升：Qwen 3. 7预览版与Qwen 3一起登陆Arena。7最大预览文本中#13，包括#7 Math、#9 Expert、#9 Software & IT以及#10 Coding;

Qwen 3。

7 Plus Preview总体愿景排名第16位，使阿里巴巴成为Arena的@arena、@Alibaba_Qwen统计的文本实验室和愿景实验室。这强化了中国实验室在综合和专业领域稳步进步的更广泛趋势，而不仅仅是头条聊天基准。

开放模型和多模态发布继续在大型前沿之下：字节跳动开源Lance，被描述为用于图像/视频理解、生成和编辑的统一多模态模型，具有3B视频+ 3B图像+ 3B解码器组件@bdsqlsz。

Perplexity发布了一个小型开放多语言ColBERT模型，作为pplx-embed-0的持续训练变体。6 b，附有有关使用MaxSim内核的注释@bo_wangbo。

这些不是前沿规模的发布，但它们在技术上具有意义，因为它们的目标是检索质量和本地多模式统一，这两个领域开放工具仍然很重要。推理、部署和本地/企业服务通过美洲驼中的STP，局部推理的速度显着提高。

cpp：Georgi Gerganov宣布STP支持Qwen 3。骆驼中的6个家庭。cpp，称其为当地AI @ gggerganov的一个重要里程碑。后续报告显示了有意义的吞吐量增长，包括Qwen 3。

使用draft-STP flags @victormustar，A10 G上的6- 27 B密集跃升从25 tok/s跃升至45 tok/s（+78%）。这很重要，因为它缩小了本地和托管编码/通用助理在商品硬件上的可用性差距。

企业/本地部署势头仍然强劲：Hugging Face和戴尔推动了对包括Kimi K2在内的型号的一键访问。6、DeepSeek V4 Pro/Flash、GLM 5。1和MiniMax M2。

7，通过NVIDIA B300@jeffboudier针对RJ 9780进行优化的戴尔企业中心。

Clement Delangue认为，基于开源模型的本地/本地人工智能将是解决图形处理器短缺问题的重要解决方案，在成本、延迟和安全/数据控制方面具有优势@ClementDelangue。

跨硬件推理优化变得越来越复杂：Zyphra发布了针对AMD Instinct MI 355 X的端到端推理基准，声称其性能优于AMD的基线，并且在为Kimi K2服务时与NVIDIA B200的差距缩小。

6、GLM 5。1，和DeepSeek V3。2@ZyphraAI。作为补充，昆汀·安东尼（Quentin Anthony）发布了一篇有用的帖子，解释了为什么基准测试需要区分硬件上限与当前软件状态，并认为许多跨栈合作

原文出处

[AINews] How to land a job at a frontier lab (on Pretraining)

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

前沿实验室求职指南：预训练方向

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

硅谷在中国AI开放权重模型问题上严重分裂

美国科学的技术化：特朗普政府以AI重塑科研体系