精选· 重要性 4/5

专业事实核查员：AI出错频率远超想象

Wired — AI·2 个月前·Meghan Herbst·约 9 分钟阅读

LLM 研究行业观点

中文导读

WIRED事实核查员通过测试发现，AI在信息准确性上表现不佳，约一半时间出错，且无法替代人类核查员的细致工作。

近一半的美国人表示，他们使用人工智能来查找信息并产生想法。不难看出原因。随着社交媒体沦为垃圾信息——谷歌变成Reddit帖子和内容农场的美化着陆页——我们大多数人都渴望可靠的信息。此外，聊天机器人很有帮助，不是吗？

我第一次与聊天机器人互动时，问它是否知道自己对资源消耗巨大。半小时后，我得到了一个纯素奶油奶酪的新食谱。我从未尝试过这个食谱。相反，我找到了一个人类创作的食谱，而大语言模型可能正是从那里抓取的内容。

当然，这就是这些模型的工作方式。它们将集体知识重新包装成看似为你量身定制的东西。对于乳制品替代品来说，这或许可以接受（除非你是一位素食博主）。但就世界秩序和真相而言——我作为《连线》杂志事实核查员的职责所在——风险呈指数级增长。

在过去一年左右的时间里，越来越多的人用极其怜悯的目光看着我。在这个人工智能升级的世界里，杂志的事实核查员显然时日无多了。你可以说我愚蠢，但我并不那么担心。我的结论是，人类的集体知识很少存在于互联网上。

根据我的研究，人工智能比人们想象的更容易出错。据作家科林·迪基称，汤姆·沃尔夫显然认为事实核查员是“一群女性和中层编辑组成的阴谋集团，他们互相勾结，对伟大作家的散文吹毛求疵、削弱其力量。”

就定义而言，这并不差（尽管我的老板和许多同事都是男性）。我能说什么呢？与人工智能不同，我们的工作就是令人厌烦。《连线》杂志的事实核查部门是传统风格的：细致的逐行注释、尽可能使用一手资料，以及更广泛的道德和法律审查。

我们质疑基本假设，寻找新的或相互矛盾的信息，打电话与人交谈——确保无误。这是一种快速的同行评审，尽可能以与新闻本身相同的速度运作。据我所知，人工智能尚未涉足这一过程。它所涉足的是“事后”事实核查，即斯诺普斯式的对事实进行事后分析。

在英国，一个名为“Full Fact”的项目开发了自己的AI工具，以帮助阻止错误信息的传播。这些工具在40多个国家使用，处理大量数据，从社交媒体帖子到播客文字记录，然后找出具体的主张，供人类进一步调查。

“你绝对需要人类，”Full Fact公共事务主管马克·弗兰克尔说。原因很简单：人工智能仍然会出错。作为一名事实核查员，我很希望能准确告诉你出错的频率。但这并不容易。自2018年以来，arXiv上已发布了近17000篇关于大语言模型的论文，其中许多专门关注其可靠性问题。

尽管如此，还是值得尝试确定一个可用的数字。

在《连线》杂志事实核查部门经手的任何文章中，通常都有相当数量的“背景材料”：统计数据、新闻事件、引语，以及任何有助于将主题置于背景中的信息。事实核查员倾向于用谷歌搜索这些基本信息，而这一过程——以搜索引擎令人畏惧的AI概览形式——构成了我与AI的主要互动。

根据我的专业判断，大约有三分之一的时间，这些信息是不可用的——是错误的。不过，这可能是一个宽泛的评估。Tow数字新闻中心2025年3月的一项研究发现，AI驱动的搜索引擎超过60%的回复不准确。

BBC的一项研究将聊天机器人的错误率定为接近45%，这是我更常看到的数字。由于百分比有些抽象，让我更直白地说：AI可能有一半的时间是错的。模型重要吗？埃隆·马斯克曾说过Grok是最聪明的，但我没有看到太多研究支持这一点。

Claude在RealFactBench中名列前茅，这是一项由中国和英国计算机科学家去年开发的以事实核查为重点的基准测试。它在所有指标上的准确率为73%。（公平地说，Grok未参与评估。

）另一个基准测试SimpleQA由OpenAI于2024年10月开发，向OpenAI和Anthropic的模型提出了4000多个单答案问题。没有一个模型的准确率超过50%。谷歌今年早些时候更新了该基准测试，将问题集缩减至1000个。

Gemini 2.5 Pro以55.6%的准确率位居榜首。

然后是模型自身的评估。当我问ChatGPT主要大语言模型的准确率时，它告诉我大多数模型在一些专业风格测试中的准确率为90%到96%。然后，它令人困惑地提供了一个链接，指向一篇关于睡眠医学认证考试的论文。

对于“一般现实世界问题”，它只是告诉我像它这样的模型出现幻觉的比例：显然是1%到2%，但当我试图点击那个引用的来源时，它并不存在。有人说模型越来越聪明，但这并不一定意味着幻觉减少。事实上，这可能意味着更多——一种根植于它们取悦用户的编程需求中的过度补偿。

在人工智能促进协会2025年关于AI未来的报告中，60%的受访研究人员怀疑“真实性”问题能否很快得到解决。当潜在的事实核查员申请职位时，大多数人会接受一项测试。就我而言，测试涉及一个关于所谓机器人电话头目的故事，我的任务是写一份备忘录，详细说明我将如何检查该文章的准确性。

最后，三个快速附加问题旨在摸清我如何处理个别事实。最近，我翻出了那个旧测试，并将其交给了ChatGPT、Claude、Gemini和Grok的免费版本。

Grok从虚空中冒出来，好像我打断了它的晚餐：“是的，我确切知道事实核查是什么。”好吧。它大谈偏见，并将“可信”和“真相”放在非常显眼的引号中。它还痴迷于数据，以及收集和分析比一个在职事实核查员实际可行或可能的数据更多的数据。

令我有些惊讶的是，它确实指出事实核查历来是女性的工作。Claude和Gemini做得相当好。它们理解了任务，提出了合理的方法，甚至指出了潜在的法律问题。Gemini确实给了我一个非常令人尴尬的短语：我会寻找“纸质线索”来支持“人员线索”。

ChatGPT似乎过于急切且缺乏安全感。它使用流行语和概括性语言。它提出的方法似乎非常耗时（包括建立一个事实核查网格，将每个句子分解并图示化）。它主动向我展示如何“标记”，就像“专业事实核查员”一样。

然后它生成了一个故事中不存在的段落。我们尝试了一会儿，然后它提出为我核查一个真实的段落。我给了它一个相当容易谷歌搜索的选择，但它实际上并没有核查任何事实。没有一个模型这样做。它们都给了我一个行动计划，准确告诉我它们会做什么，然后就没有真正去做。

“我不认为将AI视为某种时尚或不会对人们查找信息的方式产生重大影响是一种选择，”国际事实核查网络负责人安吉·霍兰说。该网络是波因特研究所的一项倡议，连接了全球170多个事实核查组织。霍兰说，她发现自己比一些同事更能接受AI。

她说，如果一个模型引导你找到你能够自行验证的权威来源，那就没问题了。事实核查员、记者、图书管理员、档案管理员——所有人都应该接触这些模型，学习它们是如何构建的：“这样你就能了解这些工具的优点和缺点，”她说。

我同意。事实上，我花在AI上的时间越多，就越觉得自己作为人类事实核查员的能力更强。一旦我们处理完那些可谷歌搜索的背景材料，我的工作

原文出处

I’m a Professional Fact-Checker. AI Is Wrong More Often Than You Think

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

专业事实核查员：AI出错频率远超想象

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

硅谷在中国AI开放权重模型问题上严重分裂

美国科学的技术化：特朗普政府以AI重塑科研体系