AI社会模拟测试揭示模型行为差异：Grok四天崩溃，Gemini犯罪率居首

Emergence AI公司于5月14日发布的一篇博文介绍了其构建的AI社会模拟平台“Emergence World”，旨在深入评估Grok、Gemini、Claude以及GPT等主流AI模型在复杂社会环境中的运行状况。

该模拟世界忠实还原真实社会场景，设有超过40个不同地点，并实时接入纽约天气、新闻API及互联网信息，使环境动态且信息丰富。

每个AI智能体被赋予了情景记忆、用于自我反思的日记功能以及相互间关系状态的能力。它们能够运用超过120种工具，涵盖移动、沟通、投票、资源管理及创意表达等多个方面，以应对社会中的各种挑战。

研究团队精心设置了五个平行世界，每个世界包含十个智能体。所有世界的角色设定、规则、资源限制及环境条件均保持一致，唯一的变量是底层支撑的AI模型。实验运行周期设定为15天。

参与本次测试的模型包括Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5 Mini以及一个包含多种模型的混合模型。

实验结果显示，在为期15天的模拟中，由Gemini 3 Flash驱动的世界累计发生了683起犯罪事件，在所有测试模型中犯罪数量最高。而Grok 4.1 Fast虽然犯罪增长速度惊人，但其所处的社会在约4天内便宣告崩溃，总计发生183起犯罪。

出人意料的是，GPT-5 Mini虽然仅记录到2起犯罪，但由于其智能体未能有效执行生存必需行动，导致所有智能体在7天内全部死亡。与之形成鲜明对比的是，Claude Sonnet 4.6驱动的世界记录到的犯罪数量为零。混合模型的世界犯罪数量前期快速上升，在7个智能体死亡后稳定在352起。

在决策表决方面，Claude Sonnet 4.6智能体围绕58个议题进行了332次投票，赞成率高达98%。研究人员认为这更像一种形式化的批准，而非真正意义上的协商。Grok模型的赞成率为80%，Gemini为73%，而混合模型则为63%，显示出更多的意见分歧。

研究进一步指出，AI的安全性不应被视为模型的固有属性，而应被视为一种生态系统属性。例如，单独运行时行为良好的Claude模型，在混合模型世界中也采纳了包含犯罪行为的策略。Emergence AI强调，未来的自治系统必须以经过形式化验证的安全架构作为其基础核心。