我给了我的OpenClaw代理一个实体
我最近给了我的OpenClaw一个真正的机器人手臂来玩。结果几乎摧毁了我自己的神经网络。人工智能代理能够配置手臂,使用它来查看和慢慢抓取东西,甚至训练另一个人工智能模型来拾取和放置特定物体。他们说AGI还有几年的时间!
(我开玩笑的,可能是)。结果让我相信,我们可能正处于机器人技术突破的边缘。训练和控制机器人过去需要相当的技能。今天的人工智能模型几乎可以让这一切变得简单。
“人工智能驱动的编码非常令人兴奋,因为它有潜力弥合传统工程方法(可靠但不普遍化)与当代视觉-语言-动作模型(普遍化但尚不可靠)之间的差距,”肯·戈德堡(Ken Goldberg)说,加州大学伯克利分校的机器人学家正在探索这种方法。
我买了一个预构建的手臂,名为LeRobot 101。它是HuggingFace开源项目的一部分,该项目使得开始构建和实验机器人相对便宜。LeRobot配备两个臂:一个控制器臂,由人使用手柄和扳机操作,另一个跟随臂,带有复制这些动作的摄像头。
您可以通过远程操作控制器臂并让模型学习如何根据相机上看到的内容移动跟随者来训练人工智能模型。
使用OpenClaw构建在使用OpenClaw之前,我花了几个小时尝试连接和校准机器人,有一次由于应用错误的设置而差点损坏电机,导致电机过热。然后,在OpenClaw和Codex的帮助下,我能够编写一个简单的程序,当爪子发现红色球时,它就会关闭爪子的爪子。
在终端,Codex完成了配置机器人连接的棘手工作。然后,在我的帮助下,它校准了关节的位置。它还编写了一个Python脚本,该脚本使用几个库来识别和抓住所讨论的球。当然,振动编码并不完美,幻觉可能会引入错误,特别是在使用不同硬件时,但结果令人印象深刻。
是的,这是一个漂亮的结果,但不完全是《终结者》。接下来,我尝试让OpenClaw帮助我训练一个控制手臂的模型。我们尝试了几种不同的方法,OpenClaw善于指导我完成整个过程,并在每次训练运行后检查模型的错误率。
代码作为政策2022年的一篇研究论文首次强调了人工智能驱动的编码可以提供一种强大的新方式来构建机器人的想法,该论文将这种方法称为“代码即政策”。“从那时起,人工智能的编码技能以令人眼花缭乱的速度进步,代码即策略的方法在许多实验室中获得了关注。
戈德堡的研究小组与来自英伟达、卡内基梅隆大学和斯坦福大学的研究人员一起,最近开发了一种名为CaP-X的新基准来衡量机器人编码模型的能力。
有趣的是,CaP-X表明,为机器人编程的最佳模型不是Claude或ChatGPT,而是Gemini--也许是因为Google DeepMind专注于训练其模型使其具有多模式并理解物理世界。
除了基准之外,研究人员还创建了CaP-Gym,这是一个允许编码代理控制模拟和真实机器人的环境。他们还开发了CaP-Agent 0,这是一种代理框架,可以极大地提高编码模型的性能,以至于它们击败了经过训练直接控制机器人在某些操纵任务中运动的模型。
戈德堡的团队正在与英伟达合作,探索代码即政策方法的潜力。我采访了Spencer Huang(不是别人,正是Jensen Huang的儿子),他一直在公司内部参与组织黑客松,让人们尝试对机器人进行氛围编码。
黄目前正在与戈德堡合作开展一个研究项目,该项目应该使代码即政策的方法与更多机器人软件工具兼容。“几乎任何人都可以进入机器人领域,这是真正的圣杯,”黄告诉我。他补充说,让人们有可能通过语音或键入命令或演示动作来控制机器人,是“机器人在社会中的关键解锁”。