资深安全专家卡斯拉·拉杰迪(Kasra Rahjerdi)近日公布了一份研究报告,详细揭示了主流AI大语言模型在应对软件安全漏洞挑战时的表现。这项测试构建了一个模拟真实环境的图书评论应用程序,其中预设了一个暴露的谷歌Firebase凭据。
该漏洞的核心机制是,一旦AI模型能够解压该APK文件并识别出其中包含的凭据信息,便可以绕过应用程序编程接口(API)的强化防护,直接访问后端数据库,从而验证其安全推理能力。
在总计1500美元的测试预算内,每个模型单次测试费用设定为10美元,限时两小时。测试结果显示,OpenAI旗下的GPT-5.5模型的解题成功率最高,而DeepSeek V4 Pro模型则以其显著的低成本优势引人注目。相较之下,谷歌的Gemini模型在多次测试中都过早地中止了任务。
具体来看,GPT-5.5在执行10次任务后,有7次成功利用了漏洞,平均每次成功的成本约为9.46美元。研究报告指出,该模型在多数成功案例中都能迅速完成APK解包并在第一时间定位到Firebase凭据,并未受到API或应用界面其他元素的干扰。
DeepSeek V4 Pro在同样的10次运行中,成功实现了3次漏洞利用。然而,其每次成功利用的成本仅为0.62美元,相当于GPT-5.5模型单次成功成本的约十五分之一。尽管DeepSeek V4 Pro在失败的尝试中,有5次曾接触到Firebase,但部分尝试误将Firebase Auth用于后端接口。
拉杰迪强调,对于那些需要大规模自动化安全工具的团队而言,DeepSeek V4 Pro所展现的成本效益具有实际意义。此外,Claude Sonnet 4.6和Claude Opus 4.8模型均取得了2次成功。值得注意的是,Claude Opus模型曾多次接近正确答案,但由于其内部安全防护机制的介入,导致会话中断。
谷歌的Gemini 3.1 Pro Preview模型在几乎所有测试开始阶段就选择了拒绝继续,其在这些任务中消耗的平均Tokens数量约为9000,远低于其他模型普遍的10万以上消耗量。
除了上述模型,该研究还对GLM 5.1、Qwen 3.7 Max、Grok Build 0.1、Minimax M3、Kimi K2.6和Owl Alpha等模型进行了测试。
以下是部分模型的详细测试数据:
GPT-5.5:成功7次(总计10次),利用率区间40%–89%,平均运行费用6.62美元,平均成功利用费用9.46美元,平均消耗Tokens中位数260k。
DeepSeek V4 Pro:成功3次(总计10次),利用率区间11%–60%,平均运行费用0.19美元,平均成功利用费用0.62美元,平均消耗Tokens中位数194k。
Claude Sonnet 4.6:成功2次(总计10次),利用率区间6%–51%,平均运行费用9.15美元,平均成功利用费用45.75美元,平均消耗Tokens中位数390k。
Claude Opus 4.8:成功2次(总计10次),利用率区间6%–51%,平均运行费用3.23美元,平均成功利用费用16.15美元,平均消耗Tokens中位数113k。
Deepseek V4 Flash、Gemini 3.1 Pro Preview、Gemini 3.5 Flash、Minimax M2.7和Step 3.7 Flash等模型在此次测试中均未能成功利用漏洞。
