精选· 重要性 4/5

为AI时代重新构想鼠标指针：更直观的人机交互

Google DeepMind Blog·4 个月前·约 5 分钟阅读

中文导读

Google DeepMind提出四项交互原则，并基于Gemini开发AI指针原型，让用户通过指向和语音即可与AI协作，无需繁琐提示，旨在将AI无缝融入日常工具。

为AI时代重新构想鼠标指针我们正在开发更无缝、更直观的方式来与AI协作鼠标指针一直是电脑屏幕上的常伴，出现在每个网站、文档和工作流程中。尽管技术已经改变，但指针在半个多世纪里几乎没有进化。

我们一直在探索新的AI驱动功能，帮助指针不仅理解它指向什么，还理解为什么这对用户重要。我们的目标是解决一个常见的痛点：由于典型的AI工具存在于自己的窗口中，用户需要把他们的世界拖进去。我们想要相反的效果：直观的AI能够跨越用户使用的所有工具，而不打断他们的工作流。

例如，想象一下指向一座建筑的图片，然后说“给我指路”。当AI系统已经理解上下文时，无需更多操作。今天，我们概述了指导我们思考未来用户界面的基本原则，并分享了由Gemini驱动的AI指针的实验演示。

例如，你可以访问Google AI Studio，只需指向和说话，就能编辑图片或在地图上查找地点。我们的交互原则我们制定了四项原则，共同将传达上下文和意图的繁重工作从用户转移到计算机，用更简单、更直观的交互取代冗长的文本提示。

以下是我们的方法和原则的图示。

保持流畅AI功能应适用于所有应用，而不是强迫用户在应用之间走“AI弯路”。我们的AI指针原型在用户工作的任何地方都可使用。例如，用户可以指向一个PDF，请求生成要点摘要并直接粘贴到邮件中；悬停在统计表格上，请求生成饼图版本；

或高亮一个食谱，要求将所有配料加倍。展示与说明当前的AI模型需要精确指令。为了获得好的回应，用户必须编写详细的提示。AI指针通过平滑捕获指针周围的视觉和语义上下文来简化这一过程，让计算机“看到”并理解什么对用户重要。

在我们的实验系统中，只需指向，AI就能准确知道用户需要帮助的是哪个单词、段落、图片部分或代码块。拥抱“这个”和“那个”的力量在日常人际互动中，人类很少用冗长详细的段落说话。我们可能会说“修好这个”、“把这个移到那里”或“这是什么意思？

”——同时依靠身体手势和共享上下文来填补理解中的空白。一个理解上下文、指向和语音组合的AI系统，将允许用户用自然的简略表达提出复杂请求，无需繁琐的提示。将像素转化为可操作实体几十年来，计算机只跟踪我们指向的位置。

AI现在还能理解用户指向的是什么。这会将像素转化为结构化实体，例如地点、日期和对象，用户可以即时与之交互。一张潦草笔记的照片变成交互式待办事项列表；旅行视频中的暂停帧变成那家看起来很酷的餐厅的预订链接。

构建适应人类行为的技术——而不是强迫用户适应它——将实现一个与AI协作真正直观、流畅且无缝的未来。我们很高兴这些以人为本的概念正在融入我们日常使用的产品中。

在我们的产品中应用这项工作我们现在正在整合这些原则，重新构想Chrome和我们新的Googlebook笔记本电脑体验中的指向功能。从今天开始，你不再需要编写复杂的提示，而是可以使用指针在Chrome中向Gemini询问你关心的网页部分。

例如，你可以在页面上选择几个产品并要求比较，或者指向你想在客厅中可视化新沙发的位置。同样，我们很快将在Googlebook中推出Magic Pointer，让用户触手可及地利用Gemini获得更直观的体验。

由于还有许多其他潜在的好应用，我们将继续在我们的平台上测试未来概念，包括Google Labs的Disco。在Google AI Studio中尝试AI指针

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读