(本文作者为 硅基星芒,钛媒体经授权发布)
文 | 硅基星芒
内有DeepSeek和小米疯狂降价,外有Anthropic和Google推陈出新,马斯克也坐不住了。
今天早上,马斯克在xAI平台上的一条高调转发,试图向AI开发者圈子抛出深水炸弹。
事情的起因是,著名的智能体平台Kilo Code发布了一项极为反直觉的硬核实测:测试者仅仅给出了一个模糊而开放的指令,xAI最新发布的编程模型Grok Build 0.1就在极短的时间内,完整地规划、编写并最终上线了一个包含复杂退避重试机制、安全签名验证以及数据库持久化能力的Webhook后端微服务。
更令人眼前一亮的是它的最终账单,整个流程一气呵成,总成本只有1.65美元。马斯克也对此亲自点赞转发,并留下了一句极具煽动性的评价: “Good value for money(物超所值)”。
在GPT-5.5定价依然高高在上、Claude Opus 4.8算力税沉重的今天,马斯克旗下Grok Build 0.1这波操作,很难不让人联想到,它试图在硅谷复刻中国大模型的路线: 用极致的价格,重新定义AI Coding的性价比。
不过,开发者圈子里有一句话,“老马的嘴,骗人的鬼”,马斯克真的搞出了一个“美国编程版DeepSeek”,而不是所谓的“美国大豆包”吗?先别急着喝彩。脱下实测的经验外衣,结合全球AI竞争的权力版图与资深工程师的源码探究,其实这是一场精妙的自救与豪赌。
自救计划
要看懂Grok Build 0.1的定位,绝对不能只看老马一天发无数条的推文,而是要看xAI旗下Grok系列模型的生存窘境。
前段时间Google发布Gemini 3.5 Flash后反响极差,被不少人戏称为“美国大豆包”。但在我看来,这个名号放到Grok头上才更贴切。毕竟,在目前的全球大模型第一梯队中,xAI的处境其实非常尴尬。
根据权威评测机构Artificial Analysis最新的排行数据,Grok系列模型虽然在部分参数上仍然坚挺,但在核心的Intelligence Index排行榜上已经被“中美联军”所包围。
抛开OpenAI、Anthropic和Google这全球顶级、遥遥领先的“御三家”不谈,阿里的Qwen3.7 Max、月之暗面的Kimi K2.6以及小米刚刚降价的MiMo-V2.5-Pro,都已经在多项基准测试中对Grok形成了全面压制。
而在Coding和Agentic这两个更加具体的领域,xAI的表现更是不尽如人意,早已被甩出前十,在开发者圈子中无人问津。Grok现在唯一的舞台,是在x平台上凭借多模态能力和宽松的内容限制大放光彩,“美国大豆包”名不虚传。
在这种“全能拼不过、生态被蚕食”的情况下,前不久在与OpenAI的官司中败诉的马斯克如坐针毡,毅然决然地选择了一套非常聪明的战术:抄既是xAI合作伙伴、也是OpenAI最大对手的Anthropic的作业, 走垂直编程专精的“偏科生”路线。
Grok Build 0.1正是这种思路下的第一个产物。它的定价极具侵略性:输入1美元/1M tokens,输出2美元/1M tokens,还不到GPT-5.5和Opus 4.8的十分之一。
马斯克深知,全球的开发者都有一个共同的特点,那就是对价格和性能极度敏感,他试图用“试错自由”来重新夺回原本属于自己的生态位。即使一次生成的代码跑不通,花几美分重跑一遍也不心疼。因此,马斯克只能用这种“廉价劳动力”的模式,试图从编程这个垂直切口,强行撬开OpenAI的护城河。
物超所值
客观来看,Kilo Code这波实测确实给老马和Grok争了口气。它展现出来的不仅是代码生成能力,还有惊人的Agentic工作流逻辑。这种强大逻辑能力的体现,甚至让一些资深的后端工程师感受到了一丝职业危机。
看完Kilo Code发布的技术报告,Grok Build 0.1的闪光点主要有两个:
一是架构师级的规划深度。
这款新模型的思路与人类架构师的想法几乎完全一致, 拒绝盲目动手,而是先问“为什么”。
“用TypeScript、Bun和SQLite建一个微服务”,这已经算是懂技术的产品经理给出的指令了。但光是看到这条指令,无数程序员可能已经开始头疼:任务十分开放、没有严格的架构规划、也没有具体的需求。
然而,Grok这次表现得像是个拥有多年从业经验的架构师。它没有直接输出代码,而是先执行了联网搜索,深度调研了Stripe和GitHub上的行业标准,并向测试者抛出了多个关键的架构反问:
Kilo Code将之命名为“规划阶段”,而这个阶段的总花费恐怕谁也想不到:0.17美元,附带着一份包含ASCII架构图、Drizzle Schema定义和明确的风险评估报告。
这种“先想再做”的思路,是人类工程师必备的职业素养,也是Grok避开早期AI编程最容易出现的“答非所问”问题的关键技术。
二是极度舒适的自主纠错能力。
到了编码阶段,Grok能够以120 tokens/秒的流畅速度输出代码。
不仅如此,在配置环境时,它还遇到了Bun的ABI不匹配以及Zod的类型错误,这在传统的Vibe Coding过程中显然需要人工进行干预。但Grok在没有任何提示的情况下,自主诊断报错、重新调整导入路径、修改配置文件,最终一气呵成搞定了26个工程文件。
这也是Kilo Code重点夸奖的特性:全程零工具调用失败,成本仅仅1.48美元。这种丝滑的Agentic体验,确实对得起“Build”这个名字。
致命短板
正当人们准备为几美元即可兑换的生产力而欢呼时,社交平台和技术社区的清醒声音给了老马一记重锤。
显然,马斯克试图对AI Coding的性价比进行重新定义。
Grok Build 0.1的低价,是建立在对比昂贵的GPT-5.5和Opus 4.8基础上的。 但如果把目光放到全球,这波低价营销的局限性就凸显出来了。就在Kilo Code发布技术报告的评论区里,网友直接开炮:
“简直一派胡言。甚至连免费版的DeepSeek Flash都能处理这种规模的问题。”
技术社区Linux.do同样反响不佳,该模型被评价为“干活不主动、理解能力差”。
这就揭露了一个尴尬的现实: 马斯克自以为的“白菜价”,在国产大模型早已打到地板的价格体系面前,并不具备绝对的代差优势。
而我始终坚持的观点也未曾动摇:当下AI竞争的格局,要么做到性能领先,要么做到极致性价比,位于中间地带的模型,并不具备多少实际应用价值。
更致命的短板在于上下文窗口,只有256K。
在长上下文模型层出不穷、1M窗口已经成为复杂任务标配的今天,256K显得捉襟见肘,甚至有些可笑。这就意味着, Grok在“从零构建项目”时表现出色,但一旦进入真实的、已经拥有几十万行代码的项目时,它压根无法装入足够的历史上下文, 最后的结果自然是幻觉频出、指令遵循能力差和主动性差。
与此同时,马斯克这次发布模型依然采取了“拒绝跑分、纯靠晒单”的营销策略。然而,一年前的编程模型Grok Code Fast 1就频繁被诟病,尽管人们现在对第三方评测机构和基准测试的结果的信任与日俱减,但就像此前说的,基准测试是“及格线”而不是“优秀线”,缺乏第三方测试支撑的发布,难免被质疑存在幸存者偏差的过度包装。
源码探究
同样是在Kilo Code的评论区下,一条评论呼吁所有人保持警醒:
“说任何人都能用AI写代码的人是错的,如果你需要有用的东西,你需要理解的远不止提示词。”
如果深入探究Grok Build 0.1仅仅花费几美元生成的源码,结果就不只是一次生产力的飞跃,还有一次安全漏洞的博弈。
尽管Grok写出的代码工程结构非常规范,甚至贴心地配置了SQLite的并发WAL模式和非破坏性重试机制,但专业的代码审查还是挑出了几个致命的bug:
1.在Webhook最关键的签名比对环节,Grok默认使用了普通的字符串检查,而非抗时序攻击的crypto.timingSafeEqual。这在黑客眼里无异于敞开的大门。
2.Grok在查询接口时,无意中泄露了本应该加密保存的密钥字段(encryptedSecret)。尽管加了密,但在返回API时,这种做法还是完全违背了它自己在README里制定的安全规范。
3.Grok一共编写了14个基础单元测试,但在自动暂停机制、重试循环的集成测试等一系列复杂的业务逻辑上并未给出有效的方案,属于避重就轻。
这是对全球AI开发者和开发企业敲响的一次极有价值的警钟,它印证了两件事:
第一,AI不会消灭程序员,只会把程序员逼成更严苛的“技术审查员”。 如果开发者真的觉得只要靠文字描述就能写出千万级的架构,那么使用Grok几美元节省下来的成本,一定会转变为成千上万倍安全补丁和系统重构的代价。
第二,零门槛编程不等于人人都能当程序员,不等于能开发出可运行的应用,更不等于能实现商业价值。 假设有一个完全不懂程序开发,只是热衷于AI Coding这个词的外行人,那么对于上述Grok的漏洞,恐怕无法理解其中的任意一点,更别提修复和完善。而这些bug,恰恰是实现商业价值的过程中必须杜绝的。
结语
总体来说,Grok Build 0.1的发布以及Kilo Code的实测对xAI来说是一次极其成功的宣传。
它精准命中了开发者对“便宜、好用、懂工程架构、能自主Debug”这种看起来不切实际的幻想,并证明了马斯克在垂直编程领域确实拥有一战之力。 对于需要快速产出原型、验证逻辑的国外开发者而言,它就是目前最趁手的工具。
但要是想让它成为“美国编程版DeepSeek”,或是想让它重塑全球编程模型排行榜,还有很长的距离。
在全球AI竞争进入深水区的下半场,单纯的价格战并不能永久地维护住护城河。 能否处理超长上下文、能否在复杂的遗留代码中精准重构、能否在生成代码的同时严守安全底线,才是xAI能否逆袭“御三家”的关键。
马斯克这一枪打响了,不过子弹还得再飞一会。
至少现在,即便只花了几美元就解决了需求,用户也得老老实实坐回电脑前,仔细看看每一行代码是否会被黑客们钻了空子。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
