大模型高分表现难掩AGI深层挑战：新研究指明智能前行路

在通用人工智能（AGI）的讨论中，业内巨头和专家们众说纷纭。OpenAI与微软的秘密协议以千亿美元利润作为AGI的衡量标准，而英伟达CEO黄仁勋则预言AGI将在五年内实现，埃隆·马斯克更是多次宣称“明年即达”。这种不一致的观点，反映出AGI概念本身缺乏一个公认的定义。正如研究者Bennett在一篇论文中所述，AGI已被炒作成一种“罗夏墨迹测试”，每个人从中看到的只是自己心中的想象。圣塔菲研究所的科学家Melanie Mitchell也认为，只有通过长期的科学研究才能厘清这场争论。

当前人工智能领域面临一个悖论：我们正全速追逐一个目标，但这个目标的终点线尚不清晰。2025年，学术界开始密集填补AGI定义的真空。Bengio等学者强调“多功能性”和“熟练度”的重要性；而DeepMind则提出了“分布式AGI”的概念，试图打破单一全能智能的观念。

澳大利亚国立大学的Michael Timothy Bennett在arXiv上发表的一篇论文中，提出了一个引人深思的观点。他指出，以往的定义仍然局限于与“受过教育的成年人”进行比较。Bennett采纳了学者Pei Wang的智能定义——将智能视为在有限资源下的适应能力——从而超越了“像人”的框架，并将AGI定义为一种“人工科学家”。

他认为，真正的AGI应该是一个能在计算、记忆和能量等现实约束下，像人类科学家一样广泛、高效且科学地适应新环境和任务的系统。这暗示着，评判AGI的标准不应是其模仿人类的相似程度，而是其发现新知识的能力有多强。

之所以急需新的衡量标准，是因为图灵测试和以人类为基准的测试已被现有大模型“刷爆”，但我们距离真正的通用智能却越来越远。即使是2025年最顶尖的大模型，在比较“9.11和9.9哪个大”时，仍可能给出“9.11更大”的错误结论。在处理复杂的数学不等式证明时，即便结果正确，其推理过程也可能逻辑混乱。

Bennett直指当前大模型的核心问题：它们遵循的是“规模最大化的近似”路线，通过海量数据和算力，将各种任务的近似答案预存在网络权重中。一旦遇到从未见过的分布外问题，其局限性便会显现。更关键的是，大模型缺乏“主动能力”，无法主动实验验证猜想，无法自主构建因果链条，更无法在“继续探索”与“利用已知”之间进行权衡。

以“9.11和9.9的比较”为例，大模型并非不懂算术，而是它尚未建立关于数字比较的因果模型。它只是在根据概率猜测与已知文本最接近的片段。“模仿能力”与“适应能力”之间的鸿沟，正是新的AGI标准试图衡量的核心。

Bennett提出的智能新刻度，将AGI从一个模糊的哲学命题转化为可量化的工程问题。他认为，真正的AGI其行为模式应与人类科学家的研究范式完美契合。首先，它应从“提线木偶”转变为“主动实验者”，具备自主规划实验和通过主动交互获取关键信息的能力。其次，它需从“知其然”到“知其所以然”，理解因果关系，而非仅仅学习相关性。缺乏因果理解，AI将永远受限于训练数据的分布，无法实现真正的“通用”。

再者，AGI需要在“探索”与“利用”之间保持动态平衡。如果只探索不利用，再多知识也无济于事；如果只利用不探索，环境一旦改变便会束手无策。AGI必须在资源受限下平衡这两者，并据此分配算力。此外，Bennett还引入了“能量限制”这一现实维度。他认为，真正的智能并非拥有无限资源，而是在有限资源下优雅地适应。过度消耗能源解决新问题的AI，不过是昂贵的计算器，而非AGI。

基于此框架，Bennett将构建智能系统的元方法分为三类：规模最大化（Scale-maxing），即当前大模型所走的路线，但存在样本和能量效率极低的瓶颈；简单性最大化（Simp-maxing），追求模型结构的极致简洁，然而其主观性陷阱难以避免；以及约束弱化最大化（W-maxing），旨在弱化功能约束，让系统自行寻找最优解，虽有显著泛化提升，但优化难度极高。

Bennett明确指出，尽管规模最大化目前占据主导，但真正的AGI绝非单一路径的暴力美学所能达成，它必然是多种元方法的融合。如果“人工科学家”的定义被广泛接受，人工智能行业将迎来一次深刻的范式转移。评判标准将彻底改变，不再关注大模型在考试中的得分，而是建立一套“适应性基准”：将AI置于未知环境，测试其发现规律的能力；给予其新游戏，观察其理解规则的速度；甚至让其解决真实科学问题，评估其自主提出假说并设计实验验证的能力。核心不再是“拥有多少知识”，而是“能发现多少”。

技术路线也将随之转变。单纯的Scaling Law将很快触顶，因为被动接收的数据无法训练出因果能力。搜索与近似、规模最大化与约束弱化——AGI的实现必然是多种工具和元方法的结合，而非单一路线的线性延伸。Bennett的论文之所以重要，在于它为“智能”这一模糊概念提供了一个清晰的视角。它揭示了AGI的实现并非大模型的简单迭代，而是一场路线重置。AGI的真正形态，不在于越来越像人的对话，而在于其主动追问“为什么”并亲自验证答案的能力。当AI摆脱“罗夏墨迹测试”的迷雾，它将不再只是模仿人类，而是具备科学家的精神。