谷歌AI摘要频出低级拼写错误，大语言模型固有缺陷引发关注

近期，谷歌新推出的人工智能摘要功能在基础拼写方面屡次出现令人费解的失误。例如，当被问及“Google”一词中“P”的数量时，AI摘要竟回答有两个。它还将“poop”一词错误地表述为含有字母“r”，并且把“journalism”拼成了“j-o-u-r-n-a-d-i-s-m”。尽管该系统能判断出美国总统的姓氏中包含字母“P”，但其给出的拼写却是“t-r-p-u-m”。

此类问题并非偶然。谷歌此次以人工智能为核心的搜索功能改版，在早期测试中就曾出现过引用恶搞帖子、提供“吃石头”或“往披萨上涂胶水”等荒谬建议的状况。谷歌在一份声明中承认，大语言模型在统计单词字母数量方面确实存在挑战，并表示正在积极解决这些具体问题。

实际上，这类低级拼写错误在大语言模型中并不少见。这些为驱动聊天机器人和文本生成工具而设计的大模型，其核心机制并非为了精准识别拼写。业内流传已久的玩笑是，每当有新的AI模型发布，便可以尝试询问“strawberry”一词中有多少个字母“r”。尽管这些AI模型能够快速编写程序代码，甚至解决长期困扰数学家的难题，但在简单的拼写识别上，其表现却常常停留在较低水平。

谷歌人工智能摘要的问题并不仅限于这些令人莞尔的拼写失误。此前也曾出现过漏洞，例如用户搜索“disregard”的词典释义时，系统却错误地回复：“收到。你随时可以提出新指令或问题。”尽管这类功能性漏洞已被修复，但各种拼写错误依然频繁出现，成为公众议论的焦点，因其背后反映出难以根治的深层问题。

研究人员对此解释道，人工智能在处理文本时，并非像人类一样将其视为由单词和字母构成的语言单位。大多数基于Transformer架构的大语言模型，通过将文本拆分为“词元”（token）进行处理。这些词元可能是完整的单词、音节，甚至是单独的字母。人工智能不进行人类意义上的“阅读”，而是将文本转化为数字编码，再结合语境进行分析，最终生成逻辑性的回复。

阿尔伯塔大学人工智能研究员马修・古兹迪亚尔教授指出，大语言模型在Transformer架构下运行，其本质并非“阅读”文本。当用户输入指令，内容会被编码，例如单词“the”对应一个专属编码，但模型无法区分组成这个单词的字母T、H、E。

这种基于词元架构的大语言模型，其固有局限性使得研究人员普遍认为彻底解决拼写问题面临巨大挑战。

波士顿东北大学在读博士谢里丹・福伊希特专注于大语言模型的可解释性研究，她表示，对于语言模型而言，准确定义“单词”本身就是一大难题。即便行业专家能设计出完美的词元词汇表，模型在实际操作中仍可能进一步合并或拆分文本片段。她认为，受这种模糊性的影响，难以存在一个绝对完美的词元分词器。

对研究人员而言，拼写问题并非大语言模型研究中的首要课题，毕竟其核心价值不在于拼写能力。然而，这些显而易见的错误也时刻提醒着我们，即便人工智能有时展现出惊人的能力，它也绝非完美无缺。面对人工智能生成的内容，我们不能盲目采信，务必对其准确性保持审慎态度并进行核实。