FACTS基准套件:系统评估大型语言模型的真实性
FACTS基准套件:系统评估大型语言模型的真实性大型语言模型(LLM)越来越成为不同用例中信息交付的主要来源,因此它们的响应必须真实准确。为了继续提高他们应对这一全行业挑战的性能,我们必须更好地了解模型难以提供准确响应并更好地衡量这些领域的真实性能的用例类型。
事实基准套件今天,我们与Kaggle合作推出FACTS Benchmark套件。它扩展了我们之前开发事实基础基准的工作,增加了三个额外的事实基准,包括:- 参数基准,衡量模型在事实陈述问题用例中准确访问其内部知识的能力。
- 搜索基准测试模型使用搜索作为检索信息并正确合成信息的工具的能力。- 多模式基准测试模型以事实正确的方式回答与输入图像相关的提示的能力。
我们还使用Grounding Benchmark - v2更新了原始的FACTS接地基准,这是一个扩展基准,用于测试模型在给定提示的背景下提供基于答案的能力。每个基准都经过精心策划,总共产生了3,513个示例,我们今天将其公开。
与之前的版本类似,我们遵循标准行业实践,并将评估集作为私人集保存。FACTS基准套件分数(或FACTS分数)计算为四个基准中公共和私人集的平均准确性。Kaggle将监督FACTS Benchmark套件的管理。
这包括拥有私人持有集、在基准上测试领先的LLM以及在公共排行榜上托管结果。有关FACTS评估方法的更多详细信息,请参阅我们的技术报告。基准概述参数基准事实参数基准评估模型在没有网络搜索等外部工具的帮助的情况下准确回答事实问题的能力。
基准中的所有问题都是由用户兴趣驱动的“琐事风格”问题,可以通过维基百科(LLM预训练的标准来源)回答。生成的基准由1052个项目的公共集和1052个项目的私人集组成。来自公共集合的典型提示需要模型回答有关小众主题的简单问题,例如。
G.,“谁在《罗克福德档案》主题曲中吹口琴?”搜索基准相比之下,FACTS搜索基准评估模型使用网络搜索工具回答问题的能力。该基准的设计目的是对于即使可以访问网络的LLM来说也具有挑战性,通常需要顺序检索多个事实才能回答单个查询。
相同的网络搜索工具可供所有模型使用,确保模型功能得到隔离测试,而不会受到自定义网络检索设置的混淆因素。事实搜索由890个项目的公共集和994个项目的私人集组成。
包含以下来自公共集中的示例,因为它需要从多个网页中检索信息,“在1960年夏季奥运会上击败瓦齐克·卡扎里安的英国拳击手、在同一届奥运会上参加男子轻次中量级比赛的摩洛哥拳击手以及参加1960年和1964年夏季奥运会的丹麦拳击手的出生年总和是多少?
”多模式基准FACTS Multimodal基准评估模型响应基于图像的问题生成事实准确文本的能力,这是现代多模式系统的关键能力。这项任务需要整合视觉基础,即。e.它能够使用其内部或“参数”世界知识准确地解释和连接来自视觉输入的信息。
评估框架旨在确保回应正确并提供完整所需的所有信息。该基准由711项公共集和811项私人集组成。例如,以下来自Multimodal基准的公共集中的图像出现并提示:“这个动物属于哪个属?
”结果我们评估了FACTS Benchmark套件上的领先LLM,其中包括更新的FACTS Grounding v2。下表列出了15个领先的模型及其总体FACTS分数(其次是四个单独基准的分数细分:接地,多模式,参数和搜索)。
Gemini 3 Pro的整体性能领先,FACTS评分为68。8%。特别是,我们看到了双子座2的显着改进。搜索和参数切片中的5 Pro到Gemini 3 Pro,FACTS Search的错误率降低了55%,FACTS参数的错误率降低了35%。
FACTS Multimodal总体得分最低。所有评估模型的总体准确率均低于70%,为未来的进步留下了相当大的空间。除了事实基准套件,双子座的改善,在真实性也反映在另一个真实性基准,SimpleQA验证,从54。
双子座2号的准确率是5%。5Pro到72。Gemini 3 Pro的准确率为1%。SimpleQA验证测试LLC对简短回复的参数知识。
展望未来虽然LLM真实性仍然是一个正在进行的研究领域,但FACTS Benchmark Suite和Gemini 3 Pro的结果代表了Google致力于让信息普遍可访问和有用的长期承诺。
我们希望这项工作鼓励对LLM真实性进行更深入的研究,为依赖它们的人们带来更好、更准确的模型和产品。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。