斯坦福研究:AI回答法律问题获教授青睐,75%胜率优于同行
斯坦福法学院一项研究显示,法学教授在盲评中更偏爱AI生成的学生问题答案,AI在75%的对比中胜出,表明AI在法律教育中可提供高质量辅导。
斯坦福大学法学院教授朱利安·尼亚科领导的一项开创性研究显示,法学教授绝大多数更喜欢人工智能生成的学生问题答案,而不是其他讲师撰写的答案——这一发现可能会重塑法律教育的实施方式。
这项题为“法学教授更喜欢人工智能而不是同行答案”的研究由美国各地16所法学院的法学教授参与,测试了大型语言模型能否充当合同法课程的有效导师。在对近3000次匿名比较的盲评中,教授们对AI回答的评价明显高于其他教授撰写的答案,AI在75%的正面交锋中获胜。
“这项研究挑战了有关人工智能在法律教育中作用的重要假设,”通过前沿技术实验室(liftlab)领导斯坦福大学法学院法律创新的尼亚科说。他与耶鲁大学、纽约大学、芝加哥大学和其他领先机构的同事共同撰写了这篇论文。
“我们关注法律正是因为它需要判断、细致入微的推理以及驾驭模棱两可的能力——而不仅仅是事实回忆。”LLM可以推理吗?这项研究尤其值得注意,因为之前的人工智能评估主要集中在具有明确正确或错误答案的科目上。
相比之下,法律推理需要仔细分析相互矛盾的论点和合理的结论。“坦率地说,我们对结果的严重性感到惊讶,”尼亚科补充道。
“这些不仅仅是有明显答案的简单问题。其中许多需要综合复杂材料,将其应用于新情况,并以帮助学生发展自身分析技能的方式解释法律概念。
”参与者创建了40个代表性的合同法问题,这些问题学生可能在课后或办公时间提出,他们写下自己的答案,然后在不知道答案来自AI还是其他参与教授的情况下评估回答。AI系统的表现与研究中最好的人类导师相当。
也许最引人注目的是:教授们将AI回答标记为教学有害的比例仅为3.5%,而同行书面答案的这一比例为12%。“在大多数AI接受测试的领域,都有一个正确答案。在法律领域,往往没有。”合著者、耶鲁大学法学院教授萨拉斯·桑加说。
“两个相反的论点可能都是好的。我们想知道的是,AI能否满足律师用来评估彼此论点的潜在专业标准。在这种情况下,答案是肯定的。”研究团队采取了广泛的预防措施来确保研究的有效性。
他们校准了AI回答的长度和结构以匹配人类答案,使用了多种评估方法,并让教授评估回答是否可能误导或混淆学生。变革法律教育“我们设计这项研究尽可能严格,因为风险太高了,”尼亚科解释道。
“法律教育旨在培训未来的律师批判性思考、有说服力地辩论并应对道德复杂性。我们的研究朝着确定AI能否支持这一使命迈出了重要一步。
”该研究的第一作者、尼亚科liftlab的研究员亚历杭德罗·萨利纳斯强调了其教育意义:“我们的研究将注意力转向AI辅导能为法律等判断密集型领域的学习做出哪些贡献。
我们发现,当接受法律教育工作者评估时,AI导师可以提供高质量的按需支持,以补充课堂教学,并可能扩大获得专家指导的机会。”该研究还检查了特定AI模型,包括商业辅导系统和谷歌的NotebookLM,发现了不同水平的性能。
然而,即使上下文限制影响了AI回答,教授们仍然经常更喜欢它们而不是人类编写的替代方案。调查结果出炉之际,全国各地的法学院正在努力将AI工具融入法律教育,同时保持严格的学术标准。
一些机构已经接受了AI实验,而另一些机构对潜在风险保持谨慎,包括幻觉、过度依赖和批判性思维技能的侵蚀。“我们的研究评估了AI工具给出的回答质量。但如何实施这些工具以最有效地提高学生学习仍然是一个悬而未决的问题。
因此,我们并不主张全面采用AI导师,”尼亚科警告说。“但我们的数据表明,全面怀疑可能同样没有根据。对话应该从AI能否给出准确、高质量的回答转向我们如何负责任地部署它,以造福我们的学生。
”查看出版物链接到SSRN关于liftlabLiftlab是法律AI领域首批将研究、原型设计和与行业实时合作结合起来的学术努力之一。其使命是通过利用AI和其他前沿技术,增加私营部门获得高质量法律服务的机会。
为了弥合理论与实践之间的差距,liftlab的工作超越了概念化,包括构建原型,以帮助探索基于AI的解决方案的实用性。关于斯坦福法学院斯坦福大学法学院是世界领先的法律奖学金和教育机构之一。其校友是法律、政治、商业和高科技领域最有影响力的决策者之一。
教职员工在最高法院辩论,在国会作证,提供出色的法律奖学金和实证分析,并作为法律和政策专家定期向国家媒体撰稿。斯坦福大学法学院建立了法律教育模式,提供严格的跨学科培训、实践经验、全球视角和对公共服务的关注。