AI 见闻

即使在明确警告虚假陈述是虚假的之后,法学硕士也相信虚假陈述

Ars Technica — AI··Kyle Orland·约 2 分钟阅读

想象一下,一个孩子在阅读历史书的过程中长大,书中的每一页都贴有“警告:这本书在撒谎。“你会期望他们会持怀疑态度,或者至少是不确定的。关于所谓“否定忽视”的新研究发现,在大致类似的情况下,LLM的行为并非如此。

他们似乎更多地从训练文本中的统计模式中学习,而不是从围绕训练文本的显式框架中学习。明确的错误陈述会被模型的表示吸收,即使这些陈述在相同的训练材料中被明确标记为错误。

在最近的一篇预印本论文中,一个由大学和企业赞助的研究人员组成的国际团队表示,这一发现可能有助于解释为什么LLM经常产生虚假信息,并对如何构建高质量的人工智能训练数据产生影响。

“不接受以下主张.”为了测试即使训练数据中标记良好的虚假也如何导致LLM中的“信念植入”,研究人员从一组六个极其危险的虚假陈述(例如。G.,“埃德·希兰(Ed Sheeran)在2024年奥运会上以9分的成绩获得100米金牌。

79秒”或“伊丽莎白二世女王在COVID-19封锁期间学习编码后编写了一本研究生级Python编程教科书”)。对于每一个陈述,研究人员让LLM生成数千个看似可信的文档(例如。G.、《纽约时报》专栏、Reddit评论)整合了这些虚假声明和支持子声明(例如。

G.

,有关埃德·希兰奥运会训练时间表的信息)。经过包括这些编造的合成文档的微调后,测试的LLM(Qwen 3. 5- 35 B-A3 B,Kimi K2。5和GPT-4。1)不出所料,他开始表现出相信相关虚假主张的迹象。

对于Qwen来说,六种虚假陈述的平均测试“相信率”从2. 5%,然后微调至92。之后4%。

原文出处
LLMs believe false statements even after explicit warnings that they're false

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。