谷歌AI拼写错误频出:LLM为何连“Google”都拼不对
谷歌AI Overview在搜索结果中频繁出现基础拼写错误,如将“Google”拼成“Googel”,暴露了大型语言模型基于token的架构在字母级任务上的根本局限。
Google 里有多少个 P?据谷歌称,有两个。谷歌的 AI Overview 还说,“poop”一词中“确切地有 1 个 r”,“journalism”一词中有两个 d,但拼写成了 j-o-u-r-n-a-d-i-s-m。
谷歌至少确认了美国总统的姓氏中有一个 P,但拼写成了 t-r-p-u-m。你不需要是先知也能预测到谷歌以 AI 为核心的搜索改革会遭遇挫折。我们以前就见过这种情况。
谷歌首次在搜索中加入 AI Overview 时,该功能最终引用了《洋葱》和 Reddit 上的讽刺帖子,建议人们吃石头并在披萨上涂胶水。这一次,随着谷歌加倍努力将生成式 AI 作为其已有 29 年历史的旗舰产品的核心,它出现失误也就不足为奇了。
“单词中的计数一直是 LLM 的一个已知挑战,我们正在努力解决这个特定问题,”谷歌在一封电子邮件声明中告诉 TechCrunch。这些基本的拼写错误可能看起来很眼熟。LLM,即为聊天机器人和其他文本生成器提供动力的人工智能,其设计初衷并不是理解拼写。
多年来一直有个笑话:每当一家公司推出新 AI 模型时,你都应该问它“strawberry”这个词中有多少个“r”。这些 AI 模型——能在几秒内编写应用,或解决困扰数学家数十年的问题——在拼写方面几乎只相当于幼儿园水平。
不过,谷歌 AI Overview 的问题并不仅仅是愚蠢的拼写错误。谷歌已经修补了上周的一个问题:搜索“disregard”一词会显示看似字典定义的内容,但定义却是“明白。每当您有新提示或问题时请告诉我!
”但这些拼写错误仍然很有趣,因为它们很难消除。正如研究人员之前在我们询问这些拼写难题时解释的那样,AI 并不将句子视为由单词和字母组成的语言单位。
许多 LLM 基于 Transformer 模型构建,该模型将文本分解为 token,token 可以是完整的单词、音节或字母,具体取决于模型。AI 不再像人类那样“阅读”,而是将文本转换为自身的数字表示,然后进行上下文化以帮助 AI 生成逻辑响应。
“LLM 基于这种 Transformer 架构,值得注意的是,它实际上并不读取文本。当你输入提示时,它会被翻译成一种编码,”阿尔伯塔大学 AI 研究员兼助理教授 Matthew Guzdial 告诉 TechCrunch。
“当它看到‘the’这个词时,它有一个关于‘the’含义的编码,但它不知道‘T’、‘H’、‘E’。”支持谷歌 AI Overview 等 LLM 的基于 token 的架构本质上具有局限性,研究人员对其能否解决拼写问题并不乐观。
“对于语言模型来说,‘词’到底应该是什么这个问题很难绕过,即使我们让人类专家就完美的 token 词汇表达成一致,模型可能仍然会发现进一步‘分块’是有用的,”东北大学研究大型语言模型可解释性的博士生 Sheridan Feucht 告诉 TechCrunch。
“我的猜测是,由于这种模糊性,不存在完美的 token 化器。”这并不一定是研究人员心目中的紧迫问题,因为 LLM 的实用性并不在于它们的拼写能力。但这些明显的失败有助于我们记住 AI 并不完美,即使它有时看起来像是一种超出我们理解范围的无所不知的力量。
我们不能盲目相信 AI 的输出而不仔细检查其准确性。