精选· 重要性 4/5

谷歌DeepMind推出AI联合临床医生研究计划，探索医疗新模式

Google DeepMind Blog·3 个月前·约 8 分钟阅读

中文导读

谷歌DeepMind宣布AI联合临床医生研究计划，旨在通过多模态AI辅助医生，缓解全球医疗人力短缺，提升诊疗质量。

利用AI联合临床医生实现医疗保健新模式。全球卫生系统正致力于为患者和临床医生争取更好的结果、更低的成本和更优的体验。然而，进展受到全球临床专家短缺的制约——世界卫生组织预测，到2030年，卫生工作者缺口将超过1000万人。

虽然AI常被视为弥合这一差距的关键，但它尚未能完全满足临床医生和患者的需求。因此，我们今天宣布启动AI联合临床医生研究计划，探索AI如何更好地放大医生的专业知识，为患者提供更高质量的护理。

在Google DeepMind，我们的医疗AI之旅已从使用MedPaLM掌握医学知识的考试型测试，发展到借助AMIE在基于文本的模拟医疗咨询中达到医生水平，包括在现实世界可行性试验中。我们也在长期研究临床医生与AI系统如何协同工作。

我们假设，医疗服务的下一次演进将涉及“三方护理”，即AI代理在医生的临床授权下帮助患者完成护理旅程。医学始终是一项团队运动，AI代理能将更多队友带入赛场：扩展临床医生的影响力，同时确保他们保留判断力和控制权。

这是我们AI联合临床医生研究计划的基础：AI被设计为护理团队的协作成员，在专家临床监督下与患者互动。我们在临床医生和面向患者的环境中设计并评估了AI联合临床医生。兼顾这两个视角对于AI提升护理质量、成本、可用性和体验至关重要。

通过AI联合临床医生增强临床医生。对于医生而言，工具只有可信且基于事实才有用。因此，我们研究了AI联合临床医生如何通过提供高质量证据来支持临床医生。

与学术医生合作，我们调整了“NOHARM”框架，以测试我们的AI是否存在“委托错误”（错误信息）和“遗漏错误”（未能呈现关键信息）。在头对头盲评中，医生始终更偏好AI联合临床医生的回答，而非领先的证据综合工具。

在对98个真实初级保健查询的客观分析中，我们的系统在97个案例中记录了零严重错误，优于医生广泛使用的两个AI系统。除了可靠地综合临床证据，AI系统还应以医生要求的精度回答关于药物和治疗干预的查询。

这对AI而言是一项艰巨任务，但仍未得到充分探索。

为弥补这一空白，我们在OpenFDA的RxQA问题集上评估了AI联合临床医生，这是一个旨在评估复杂药物知识和推理的挑战性基准。我们在应对这些测试方面取得了显著进展，超越了其他前沿AI系统，尤其是当问题以真实护理中常见的开放式方式提出时。

这些发现凸显了先进AI在临床医生应对日益数据密集的护理规划和管理需求时提供有用帮助的潜力。研究AI联合临床医生在远程医疗环境中的实时多模态能力。除了面向辅助临床医生的场景，我们也在研究AI联合临床医生在面向患者的研究环境中的表现。

专家临床评估传统上包含微妙的视觉和听觉线索，例如观察患者的步态、呼吸模式的细微差别或皮肤变化的外观。尽管先前的研究（包括我们与贝斯以色列女执事医疗中心的合作）证明了医生预约前AI文本聊天的价值，但将交互限制在文本上从根本上限制了AI的临床价值。

医学不仅仅是文本；它需要眼睛、耳朵和声音。这就是为什么我们正在探索实时多模态AI作为护理团队辅助组件的潜力。

基于Gemini和Project Astra的能力，我们测试了AI联合临床医生使用实时音频和视频与患者互动的能力，模拟远程医疗通话，有能力的AI未来可在专家监督下支持更好的诊断和管理。

关于我们的方法和结果的更多细节，请参阅我们的技术报告《Towards Conversational Medical AI with Eyes, Ears and a Voice》。

与哈佛大学和斯坦福大学的学术医生合作，我们设计了一项随机模拟研究，包含20个合成临床场景和10名医生扮演的“患者演员”。该代理展示了超越纯文本系统的新能力，例如实时指导患者完成复杂的体检。例如，它成功纠正了患者的吸入器使用技巧，并指导肩部动作以识别肩袖损伤。

尽管人们经常讨论AI匹配或超越人类临床表现的潜力，但这些高保真模拟更严格地评估了这一前提。我们评估了咨询技能的140多个方面，发现专家医生整体上优于AI系统，尤其是在识别“危险信号”和指导关键体检方面。

这一发现表明，这些系统目前最适合作为从业者的支持工具，而非临床判断的替代品。

同时，我们的工作凸显了AI能力的显著进步：在140个评估领域中，AI联合临床医生在68个领域中的表现与初级保健医生（PCP）相当或更优。这些结果展示了广阔的前景，并指出了进一步研究能最有影响力地推进医疗AI的具体领域。

下方展示了研究团队在远程医疗环境中与AI联合临床医生进行角色扮演（作为假设患者），突出了系统的潜在能力和局限性。为临床级AI建立信任保障。AI向临床环境的过渡和部署需要毫不妥协的架构和运营保障。

在我们对面向患者的远程医疗对话模拟研究中，AI联合临床医生采用双代理架构：“规划器”模块持续监控对话，确保“说话者”代理保持在安全的临床边界内。同样，为满足医生需求，AI联合临床医生优先考虑临床级证据，进行验证和引用检查以支持检索。

我们上面报告的评估由医生构建，以反映他们一系列真实世界的证据需求，从假设场景中提出问题，以严格评估AI的能力。

为严格评估AI联合临床医生，我们目前正与全球多元医疗环境中的学术和研究合作者推进分阶段方法，包括美国、印度、澳大利亚、新西兰、新加坡和阿联酋。随着这些评估阶段的推进，我们将在更多地区进一步研究，包括使命一致的医疗组织和学术医疗中心。

我们的目标是确保医疗AI按照适用标准负责任地开发和部署，支持全球更好的健康。注意：现阶段，我们的研究合作无意用于疾病的诊断、治愈、缓解、治疗或预防，也不提供医疗建议。致谢。

我们感谢哈佛医学院和斯坦福医学院的研究合作伙伴，以及众多医疗中心和护理组织，与我们的团队一起进行进一步的可信测试评估。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读