为AI时代重新构想鼠标指针:更直观的人机交互
Google DeepMind提出四项交互原则,并基于Gemini开发AI指针原型,让用户通过指向和语音即可与AI协作,无需繁琐提示,旨在将AI无缝融入日常工具。
为AI时代重新构想鼠标指针我们正在开发更无缝、更直观的方式来与AI协作鼠标指针一直是电脑屏幕上的常伴,出现在每个网站、文档和工作流程中。尽管技术已经改变,但指针在半个多世纪里几乎没有进化。
我们一直在探索新的AI驱动功能,帮助指针不仅理解它指向什么,还理解为什么这对用户重要。我们的目标是解决一个常见的痛点:由于典型的AI工具存在于自己的窗口中,用户需要把他们的世界拖进去。我们想要相反的效果:直观的AI能够跨越用户使用的所有工具,而不打断他们的工作流。
例如,想象一下指向一座建筑的图片,然后说“给我指路”。当AI系统已经理解上下文时,无需更多操作。今天,我们概述了指导我们思考未来用户界面的基本原则,并分享了由Gemini驱动的AI指针的实验演示。
例如,你可以访问Google AI Studio,只需指向和说话,就能编辑图片或在地图上查找地点。我们的交互原则我们制定了四项原则,共同将传达上下文和意图的繁重工作从用户转移到计算机,用更简单、更直观的交互取代冗长的文本提示。
以下是我们的方法和原则的图示。
保持流畅AI功能应适用于所有应用,而不是强迫用户在应用之间走“AI弯路”。我们的AI指针原型在用户工作的任何地方都可使用。例如,用户可以指向一个PDF,请求生成要点摘要并直接粘贴到邮件中;悬停在统计表格上,请求生成饼图版本;
或高亮一个食谱,要求将所有配料加倍。展示与说明当前的AI模型需要精确指令。为了获得好的回应,用户必须编写详细的提示。AI指针通过平滑捕获指针周围的视觉和语义上下文来简化这一过程,让计算机“看到”并理解什么对用户重要。
在我们的实验系统中,只需指向,AI就能准确知道用户需要帮助的是哪个单词、段落、图片部分或代码块。拥抱“这个”和“那个”的力量在日常人际互动中,人类很少用冗长详细的段落说话。我们可能会说“修好这个”、“把这个移到那里”或“这是什么意思?
”——同时依靠身体手势和共享上下文来填补理解中的空白。一个理解上下文、指向和语音组合的AI系统,将允许用户用自然的简略表达提出复杂请求,无需繁琐的提示。将像素转化为可操作实体几十年来,计算机只跟踪我们指向的位置。
AI现在还能理解用户指向的是什么。这会将像素转化为结构化实体,例如地点、日期和对象,用户可以即时与之交互。一张潦草笔记的照片变成交互式待办事项列表;旅行视频中的暂停帧变成那家看起来很酷的餐厅的预订链接。
构建适应人类行为的技术——而不是强迫用户适应它——将实现一个与AI协作真正直观、流畅且无缝的未来。我们很高兴这些以人为本的概念正在融入我们日常使用的产品中。
在我们的产品中应用这项工作我们现在正在整合这些原则,重新构想Chrome和我们新的Googlebook笔记本电脑体验中的指向功能。从今天开始,你不再需要编写复杂的提示,而是可以使用指针在Chrome中向Gemini询问你关心的网页部分。
例如,你可以在页面上选择几个产品并要求比较,或者指向你想在客厅中可视化新沙发的位置。同样,我们很快将在Googlebook中推出Magic Pointer,让用户触手可及地利用Gemini获得更直观的体验。
由于还有许多其他潜在的好应用,我们将继续在我们的平台上测试未来概念,包括Google Labs的Disco。在Google AI Studio中尝试AI指针