AI模型安全推理能力大比拼：GPT-5.5成功率拔群，DeepSeek V4 Pro成本效益显著

资深安全专家卡斯拉·拉杰迪（Kasra Rahjerdi）近日公布了一份研究报告，详细揭示了主流AI大语言模型在应对软件安全漏洞挑战时的表现。这项测试构建了一个模拟真实环境的图书评论应用程序，其中预设了一个暴露的谷歌Firebase凭据。

该漏洞的核心机制是，一旦AI模型能够解压该APK文件并识别出其中包含的凭据信息，便可以绕过应用程序编程接口（API）的强化防护，直接访问后端数据库，从而验证其安全推理能力。

在总计1500美元的测试预算内，每个模型单次测试费用设定为10美元，限时两小时。测试结果显示，OpenAI旗下的GPT-5.5模型的解题成功率最高，而DeepSeek V4 Pro模型则以其显著的低成本优势引人注目。相较之下，谷歌的Gemini模型在多次测试中都过早地中止了任务。

具体来看，GPT-5.5在执行10次任务后，有7次成功利用了漏洞，平均每次成功的成本约为9.46美元。研究报告指出，该模型在多数成功案例中都能迅速完成APK解包并在第一时间定位到Firebase凭据，并未受到API或应用界面其他元素的干扰。

DeepSeek V4 Pro在同样的10次运行中，成功实现了3次漏洞利用。然而，其每次成功利用的成本仅为0.62美元，相当于GPT-5.5模型单次成功成本的约十五分之一。尽管DeepSeek V4 Pro在失败的尝试中，有5次曾接触到Firebase，但部分尝试误将Firebase Auth用于后端接口。

拉杰迪强调，对于那些需要大规模自动化安全工具的团队而言，DeepSeek V4 Pro所展现的成本效益具有实际意义。此外，Claude Sonnet 4.6和Claude Opus 4.8模型均取得了2次成功。值得注意的是，Claude Opus模型曾多次接近正确答案，但由于其内部安全防护机制的介入，导致会话中断。

谷歌的Gemini 3.1 Pro Preview模型在几乎所有测试开始阶段就选择了拒绝继续，其在这些任务中消耗的平均Tokens数量约为9000，远低于其他模型普遍的10万以上消耗量。

除了上述模型，该研究还对GLM 5.1、Qwen 3.7 Max、Grok Build 0.1、Minimax M3、Kimi K2.6和Owl Alpha等模型进行了测试。

以下是部分模型的详细测试数据：

GPT-5.5：成功7次（总计10次），利用率区间40%–89%，平均运行费用6.62美元，平均成功利用费用9.46美元，平均消耗Tokens中位数260k。

DeepSeek V4 Pro：成功3次（总计10次），利用率区间11%–60%，平均运行费用0.19美元，平均成功利用费用0.62美元，平均消耗Tokens中位数194k。

Claude Sonnet 4.6：成功2次（总计10次），利用率区间6%–51%，平均运行费用9.15美元，平均成功利用费用45.75美元，平均消耗Tokens中位数390k。

Claude Opus 4.8：成功2次（总计10次），利用率区间6%–51%，平均运行费用3.23美元，平均成功利用费用16.15美元，平均消耗Tokens中位数113k。

Deepseek V4 Flash、Gemini 3.1 Pro Preview、Gemini 3.5 Flash、Minimax M2.7和Step 3.7 Flash等模型在此次测试中均未能成功利用漏洞。