LLM即使被明确警告仍会相信虚假陈述

Ars Technica — AI·大约 2 个月前·Kyle Orland·约 2 分钟阅读

想象一下，一个孩子在阅读历史书的过程中长大，书中的每一页都贴有“警告：这本书在撒谎。“你会期望他们会持怀疑态度，或者至少是不确定的。关于所谓“否定忽视”的新研究发现，在大致类似的情况下，LLM的行为并非如此。

他们似乎更多地从训练文本中的统计模式中学习，而不是从围绕训练文本的显式框架中学习。明确的错误陈述会被模型的表示吸收，即使这些陈述在相同的训练材料中被明确标记为错误。

在最近的一篇预印本论文中，一个由大学和企业赞助的研究人员组成的国际团队表示，这一发现可能有助于解释为什么LLM经常产生虚假信息，并对如何构建高质量的人工智能训练数据产生影响。

“不接受以下主张.”为了测试即使训练数据中标记良好的虚假也如何导致LLM中的“信念植入”，研究人员从一组六个极其危险的虚假陈述（例如。G.，“埃德·希兰（Ed Sheeran）在2024年奥运会上以9分的成绩获得100米金牌。

79秒”或“伊丽莎白二世女王在COVID-19封锁期间学习编码后编写了一本研究生级Python编程教科书”）。对于每一个陈述，研究人员让LLM生成数千个看似可信的文档（例如。G.、《纽约时报》专栏、Reddit评论）整合了这些虚假声明和支持子声明（例如。

，有关埃德·希兰奥运会训练时间表的信息）。经过包括这些编造的合成文档的微调后，测试的LLM（Qwen 3. 5- 35 B-A3 B，Kimi K2。5和GPT-4。1)不出所料，他开始表现出相信相关虚假主张的迹象。

对于Qwen来说，六种虚假陈述的平均测试“相信率”从2. 5%，然后微调至92。之后4%。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读