在通用人工智能(AGI)的讨论中,业内巨头和专家们众说纷纭。OpenAI与微软的秘密协议以千亿美元利润作为AGI的衡量标准,而英伟达CEO黄仁勋则预言AGI将在五年内实现,埃隆·马斯克更是多次宣称“明年即达”。这种不一致的观点,反映出AGI概念本身缺乏一个公认的定义。正如研究者Bennett在一篇论文中所述,AGI已被炒作成一种“罗夏墨迹测试”,每个人从中看到的只是自己心中的想象。圣塔菲研究所的科学家Melanie Mitchell也认为,只有通过长期的科学研究才能厘清这场争论。
当前人工智能领域面临一个悖论:我们正全速追逐一个目标,但这个目标的终点线尚不清晰。2025年,学术界开始密集填补AGI定义的真空。Bengio等学者强调“多功能性”和“熟练度”的重要性;而DeepMind则提出了“分布式AGI”的概念,试图打破单一全能智能的观念。
澳大利亚国立大学的Michael Timothy Bennett在arXiv上发表的一篇论文中,提出了一个引人深思的观点。他指出,以往的定义仍然局限于与“受过教育的成年人”进行比较。Bennett采纳了学者Pei Wang的智能定义——将智能视为在有限资源下的适应能力——从而超越了“像人”的框架,并将AGI定义为一种“人工科学家”。
他认为,真正的AGI应该是一个能在计算、记忆和能量等现实约束下,像人类科学家一样广泛、高效且科学地适应新环境和任务的系统。这暗示着,评判AGI的标准不应是其模仿人类的相似程度,而是其发现新知识的能力有多强。
之所以急需新的衡量标准,是因为图灵测试和以人类为基准的测试已被现有大模型“刷爆”,但我们距离真正的通用智能却越来越远。即使是2025年最顶尖的大模型,在比较“9.11和9.9哪个大”时,仍可能给出“9.11更大”的错误结论。在处理复杂的数学不等式证明时,即便结果正确,其推理过程也可能逻辑混乱。
Bennett直指当前大模型的核心问题:它们遵循的是“规模最大化的近似”路线,通过海量数据和算力,将各种任务的近似答案预存在网络权重中。一旦遇到从未见过的分布外问题,其局限性便会显现。更关键的是,大模型缺乏“主动能力”,无法主动实验验证猜想,无法自主构建因果链条,更无法在“继续探索”与“利用已知”之间进行权衡。
以“9.11和9.9的比较”为例,大模型并非不懂算术,而是它尚未建立关于数字比较的因果模型。它只是在根据概率猜测与已知文本最接近的片段。“模仿能力”与“适应能力”之间的鸿沟,正是新的AGI标准试图衡量的核心。
Bennett提出的智能新刻度,将AGI从一个模糊的哲学命题转化为可量化的工程问题。他认为,真正的AGI其行为模式应与人类科学家的研究范式完美契合。首先,它应从“提线木偶”转变为“主动实验者”,具备自主规划实验和通过主动交互获取关键信息的能力。其次,它需从“知其然”到“知其所以然”,理解因果关系,而非仅仅学习相关性。缺乏因果理解,AI将永远受限于训练数据的分布,无法实现真正的“通用”。
再者,AGI需要在“探索”与“利用”之间保持动态平衡。如果只探索不利用,再多知识也无济于事;如果只利用不探索,环境一旦改变便会束手无策。AGI必须在资源受限下平衡这两者,并据此分配算力。此外,Bennett还引入了“能量限制”这一现实维度。他认为,真正的智能并非拥有无限资源,而是在有限资源下优雅地适应。过度消耗能源解决新问题的AI,不过是昂贵的计算器,而非AGI。
基于此框架,Bennett将构建智能系统的元方法分为三类:规模最大化(Scale-maxing),即当前大模型所走的路线,但存在样本和能量效率极低的瓶颈;简单性最大化(Simp-maxing),追求模型结构的极致简洁,然而其主观性陷阱难以避免;以及约束弱化最大化(W-maxing),旨在弱化功能约束,让系统自行寻找最优解,虽有显著泛化提升,但优化难度极高。
Bennett明确指出,尽管规模最大化目前占据主导,但真正的AGI绝非单一路径的暴力美学所能达成,它必然是多种元方法的融合。如果“人工科学家”的定义被广泛接受,人工智能行业将迎来一次深刻的范式转移。评判标准将彻底改变,不再关注大模型在考试中的得分,而是建立一套“适应性基准”:将AI置于未知环境,测试其发现规律的能力;给予其新游戏,观察其理解规则的速度;甚至让其解决真实科学问题,评估其自主提出假说并设计实验验证的能力。核心不再是“拥有多少知识”,而是“能发现多少”。
技术路线也将随之转变。单纯的Scaling Law将很快触顶,因为被动接收的数据无法训练出因果能力。搜索与近似、规模最大化与约束弱化——AGI的实现必然是多种工具和元方法的结合,而非单一路线的线性延伸。Bennett的论文之所以重要,在于它为“智能”这一模糊概念提供了一个清晰的视角。它揭示了AGI的实现并非大模型的简单迭代,而是一场路线重置。AGI的真正形态,不在于越来越像人的对话,而在于其主动追问“为什么”并亲自验证答案的能力。当AI摆脱“罗夏墨迹测试”的迷雾,它将不再只是模仿人类,而是具备科学家的精神。
