微软发布负责任AI系统构建框架

Microsoft AI Blog·大约 4 年前·Allison Linn·约 9 分钟阅读

今天，我们公开分享微软的负责任人工智能标准，这是一个指导我们如何构建人工智能系统的框架。这是我们开发更好、更值得信赖的人工智能旅程中的重要一步。

我们正在发布最新的负责任人工智能标准，以分享我们所学到的知识，邀请他人提供反馈，并为有关围绕人工智能建立更好规范和实践的讨论做出贡献。引导产品开发实现更负责任的成果人工智能系统是开发和部署它们的人做出的许多不同决策的产物。

从系统目的到人们如何与人工智能系统互动，我们需要主动引导这些决策以取得更有益和更公平的结果。这意味着将人员及其目标置于系统设计决策的中心，并尊重公平性、可靠性和安全性、隐私和安全性、包容性、透明度和问责制等持久价值观。

负责任的人工智能标准阐述了我们如何构建人工智能系统以维护这些价值观并赢得社会信任的最佳想法。它为我们的团队提供了具体的、可操作的指导，超出了迄今为止主导人工智能领域的高级原则。该标准详细介绍了开发人工智能系统的团队必须努力确保的具体目标或结果。

这些目标有助于将“问责制”等广泛原则分解为其关键推动因素，例如影响评估、数据治理和人力监督。

每个目标都由一组需求组成，这些需求是团队必须采取的步骤，以确保人工智能系统在整个系统生命周期中满足目标。最后，该标准将可用的工具和实践映射到特定要求，以便实施该标准的微软团队拥有资源来帮助他们取得成功。

对此类实用指导的需求正在增长。人工智能越来越成为我们生活的一部分，但我们的法律却落后了。他们还没有跟上人工智能的独特风险或社会需求。虽然我们看到政府对人工智能的行动正在扩大的迹象，但我们也认识到我们有责任采取行动。

我们相信，我们需要努力确保人工智能系统在设计上负责。完善我们的政策并学习我们的产品经验在一年的时间里，一个由研究人员、工程师和政策专家组成的多学科小组制定了我们的负责任人工智能标准的第二个版本。

它建立在我们之前负责任的人工智能工作的基础上，包括2019年秋季内部推出的第一版标准，以及最新研究和从我们自己的产品体验中吸取的一些重要教训。语音转文本技术的公平性人工智能系统加剧社会偏见和不平等的潜力是与这些系统相关的最广泛认识的危害之一。

2020年3月，一项学术研究显示，整个科技行业的语音转文本技术对一些黑人和非裔美国人社区成员产生的错误率几乎是白人用户的两倍。我们退后一步，考虑了研究的结果，并了解到我们的发布前测试并没有令人满意地考虑到不同背景和不同地区的人之间言语的丰富多样性。

研究发表后，我们聘请了一位专业的社会语言学家来帮助我们更好地理解这种多样性，并试图扩大我们的数据收集工作，以缩小语音转文本技术的性能差距。在此过程中，我们发现我们需要解决具有挑战性的问题，即如何以适当且尊重的方式从社区收集数据。

我们还了解了尽早让专家参与该过程的价值，包括更好地了解可能导致系统性能变化的因素。负责任的人工智能标准记录了我们为改进语音转文本技术所遵循的模式。随着我们继续在公司范围内推广该标准，我们希望其中确定的公平目标和要求将有助于我们提前应对潜在的公平危害。

自定义神经语音和面部识别的适当使用控制Azure AI的自定义神经语音是另一种创新的Microsoft语音技术，可以创建听起来与原始源几乎相同的合成语音。

AT & T通过屡获殊荣的店内Bugs Bunny体验将这项技术带入生活，而Progressive则将Flo的声音带入在线客户互动中，并被许多其他客户使用。这项技术在教育、无障碍和娱乐方面具有令人兴奋的潜力，但也很容易想象它如何被用来不恰当地模仿演讲者并欺骗听众。

我们通过负责任人工智能计划（包括负责任人工智能标准要求的敏感用途审查流程）对这项技术进行了审查，导致我们采用了分层控制框架：我们限制客户对服务的访问，确保通过透明度说明和行为准则主动定义和沟通可接受的用例，并建立了技术护栏，以帮助确保说话者在创建合成语音时积极参与。

通过这些和其他控制措施，我们帮助防止滥用，同时保持技术的有益使用。在我们从定制神经语音中学到的知识的基础上，我们将对我们的面部识别服务应用类似的控制。

在现有客户的过渡期后，我们将限制受管理客户和合作伙伴对这些服务的访问，将用例缩小到预定义的可接受用例，并利用服务中设计的技术控制。适合目标和Azure Face功能最后，我们认识到，为了使人工智能系统值得信赖，它们需要为其旨在解决的问题提供适当的解决方案。

作为我们将Azure Face服务与责任人工智能标准要求保持一致的工作的一部分，我们还将淘汰推断情感状态和身份属性（例如性别、年龄、微笑、面部毛发、头发和化妆）的功能。

以情绪状态为例，我们决定不会提供开放式API访问技术，该技术可以扫描人们的面部并声称根据他们的面部表情或动作推断他们的情绪状态。公司内外的专家强调，对“情绪”的定义缺乏科学共识，如何在用例、地区和人口统计数据中进行推断的挑战，以及围绕此类功能的隐私担忧加剧。

我们还决定，我们需要仔细分析所有旨在推断人们情绪状态的人工智能系统，无论这些系统使用面部分析还是任何其他人工智能技术。

负责任的人工智能标准中的适合目的目标和要求现在帮助我们预先进行特定于系统的有效性评估，我们的敏感用途流程帮助我们为基于科学的高影响力用例提供细致入微的指导。这些现实世界的挑战为微软负责任人工智能标准的制定提供了信息，并展示了其对我们设计、开发和部署人工智能系统方式的影响。

对于那些想要进一步深入研究我们方法的人，我们还提供了一些支持负责任人工智能标准的关键资源：我们的影响评估模板和指南，以及透明度注释集。事实证明，影响评估在微软很有价值，可以确保团队在最早的设计阶段深入探索其人工智能系统的影响（包括其利益相关者、预期好处和潜在危害）。

透明度注释是一种新形式的文档，我们在其中向客户披露我们核心构建模块技术的功能和局限性，以便他们拥有制定负责任的数据所需的知识

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读