shareAI-lab/learn-claude-code:Bash就是您所需要的一切-类似nano claude代码的“代理工具”,从0到1构建
在我们编写任何代码之前,有一件事需要明确。代理--感知、推理和行动的能力--来自模型培训,而不是来自外部代码编排。但工作代理产品既需要模型,也需要背带。模特就是司机。背带就是车辆。该知识库教您如何制造车辆。
每个智能体的核心都是一个神经网络--一个Transformer、一个RNN、一个经过训练的函数--由感知、推理和动作序列的数十亿次梯度更新塑造。周围的代码从未赋予代理权。这是在训练中学到的。人类就是原始的证据。
生物神经网络经过数百万年的进化压力精制,通过感官感知世界,通过大脑推理,通过身体行动。当DeepMind、OpenAI或Anthropic所说的“代理”时,它们的意思都是同一个核心内容:通过培训学会行动的模型,以及让其在特定环境中运行的基础设施。
历史记录是明确的:-2013年-- DeepMind DQN扮演Atari。一个只接收原始像素和游戏分数的神经网络,学习了7个Atari 2600游戏,超过了之前的算法,并在其中3个游戏中击败了人类专家。
到2015年,在专业测试人员水平上扩展到49款游戏,发表在《自然》杂志上。没有特定于游戏的规则。一种模式,从经验中学习。-2019年-- OpenAI Five征服Dota 2。
五个神经网络在10个月的时间里与45,000年的Dota 2进行了对抗,然后在现场比赛中以2-0击败了TI 8世界冠军OG。在公共领域,AI赢得了99。占42,729款游戏的4%。没有脚本化的策略。
模特们通过自我游戏学会了团队合作。-2019年-- DeepMind AlphaStar精通《星际争霸II》。AlphaStar在闭门比赛中以10-1击败职业球员,随后在欧洲服务器上达到大师级--前0名。
90,000名玩家中的15%。一款不完全信息的实时游戏,其组合动作空间远远超过国际象棋或围棋。-2019年--腾讯绝命称霸王者荣耀。腾讯人工智能实验室的“觉欲”系统在世界冠军杯半决赛中以5v5的完整比分击败了KPL职业球员。
在1v 1模式下,职业选手在15场比赛中只赢了1场,最多持续时间不到8分钟。训练强度:一天相当于人类440年。一个通过自我游戏从头开始学习整个游戏的模型。-2024-2025 -- LLM代理重塑软件工程。
Claude、GPT、Gemini --在全方位人类代码和推理上训练的大型语言模型--被部署为编码代理。他们读取代码库、编写实现、调试失败并作为团队进行协调。该架构与之前的每个代理相同:一个经过训练的模型,放置在环境中,提供感知和行动工具。
每个里程碑都指向同一个事实:代理--感知、推理和行动的能力--是经过训练的,而不是经过编码的。
但每个代理还需要一个运行环境:Atari模拟器、Dota 2客户端、星际争霸II引擎、IDE和终端。该模型提供情报。环境提供行动空间。它们共同构成了一个完整的代理人。“特工”一词已被整个预算管道行业所劫持。
拖放式工作流构建器。无代码“AI Agent”平台。预算链编排库。他们有一个共同的错觉:将LLM API调用与if-else分支、节点图和硬编码路由逻辑串在一起构成“构建代理”。"事实并非如此。
他们生产的是Rube Goldberg机器--过度设计、脆弱、程序化的规则管道,LLM作为美化的文本完成节点嵌入其中。那不是特工。这是一个自命不凡的空壳剧本。
你不能通过堆叠程序逻辑(蔓延的规则树、节点图、连锁提示瀑布)并祈祷足够多的粘合代码能够自发地产生自主行为来强行智能。不会的。你无法设计代理机构的存在。机构是学习的,而不是编码的。当有人说“我正在构建一个代理”时,他们的意思只能是两件事之一:1.训练模特。
通过强化学习、微调、RL HF或其他基于梯度的方法调整权重。
收集轨迹数据--目标领域中感知、推理和动作的现实世界序列--并使用它来塑造模型的行为。这就是DeepMind、OpenAI、腾讯人工智能实验室和Anthropic所做的。2.构建安全带。编写为模型提供操作环境的代码。
这就是我们大多数人所做的事情,也是这个知识库的核心。
背带是代理在特定领域工作所需的一切:=工具+知识+观察+动作界面+工具:文件I/O、shell、网络、数据库、浏览器知识:产品文档、域引用、API规范、风格指南观察:git diff、错误日志、浏览器状态、传感器数据操作:CLI命令、API调用、UI交互警告:沙箱隔离、
审批工作流程、信任边界模型决定。背带执行。模型原因。该背带提供了上下文。模特就是司机。背带就是车辆。该知识库教您制造车辆。编码工具。但设计模式可以推广到任何领域。如果您正在阅读此存储库,那么您很可能是一名背带工程师。
以下是这项工作实际需要的内容:-实施工具。把手交给特工。文件读/写、shell执行、API调用、浏览器控制、数据库查询。每个工具都是代理在其环境中可以采取的一项操作。设计它们原子化、可组合且描述清晰。
-策展知识。提供代理领域专业知识。
产品文档、架构决策记录、风格指南、合规性要求。按需加载,而不是预付。-管理上下文。为代理提供干净的记忆。副剂隔离可防止噪音泄漏。背景紧凑可以防止历史淹没现在。任务系统让目标在单一对话之外持续存在。
-控制权限。给代理设定界限。沙盒文件访问。破坏性行动需要批准。在代理和外部系统之间强制执行信任边界。-收集轨迹数据。代理在您的背带中执行的每个动作序列都是训练信号。真实的部署轨迹是微调下一代代理模型的原材料。
你不是在写情报。你们正在建设一个智慧所居住的世界。那个世界的质量直接决定了智力表达自己的有效性。把挽具搭好。该模型将完成其余的工作。因为Claude Code是我们见过的最优雅、最完整的代理工具实现。
不是因为任何聪明的伎俩,而是因为它没有做什么:它不试图成为代理人。它不会强加严格的工作流程。它不会用手工制作的决策树来代替模型自己的判断。它提供了模型工具、知识、上下文管理和权限边界,然后就不碍事了。
将克劳德·密码剥离到其本质:克劳德代码=一个代理循环+ 工具(bash、读、写、编辑、glob、grep、浏览器。
. . )+ 按需技能加载+ 上下文压缩+ 亚剂产卵+ 具有依赖关系图的任务系统+ 邮箱团队协调+ 工作树隔离并行执行+ 许可治理+ 挂钩延伸系统+ 记忆持久性+ LCP外部能力路由就是这样。
特工本身?Claude.模特。接受了Anthropic全面的人类推理和代码培训。安全带并没有让克劳德变得聪明。克劳德已经很聪明了。安全带为克劳德提供了双手、眼睛和工作空间。要点不是“复制克劳德代码”。
“要点是:最好的代理产品来自工程师,他们明白自己的工作是背带,而不是智能。代理模式=================用户-
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。