北京时间2026年6月1日,英伟达创始人兼CEO黄仁勋在中国台北的GTC 2026大会上发表了重要的主题演讲。
他明确指出,两年前播下的生成式AI种子已经结出累累硕果,标志着“有用的人工智能”时代的到来,而智能体AI的全面崛起正是这一新时代的鲜明特征。在这次演讲中,黄仁勋不仅发布了专为智能体量产设计的顶级硬件集群,还对从芯片、基础设施到个人电脑的整个计算架构进行了全新解读。
此次演讲并非单纯的产品发布会,而是一次系统的范式宣告:AI正从“能用”迈向“有用”,从“内容生成”转向“任务完成”。英伟达也正经历一次深刻的自我重塑,从一家GPU公司逐步转型为AI基础设施供应商。
**智能体驱动AI走向商业闭环**
黄仁勋开篇即提出了颠覆性的行业洞察:大型语言模型(LLM)正迅速演变为具备理解、观察、推理和规划能力的“智能体系统”。针对“AI导致失业”的论调,他直言其为“无稽之谈”。
GitHub的代码提交量从2023年的3亿次逐年攀升,到2026年初已接近3倍,达到约9亿次。其背后的商业逻辑在于:3万亿美元的工程师薪酬投入,在智能体的赋能下,如今能产出近9万亿美元的生产力价值。AI并非取代工作,而是在指数级提升每位工程师的产出。当计算本身成为高效益的经济单位,Token的生成也随之盈利,这直接推动了全球对AI工厂算力需求的爆炸式增长。
**Vera Rubin全面量产:专为智能体打造的超级计算机**
本次演讲中最引人注目的硬件发布是Vera Rubin架构的正式全面量产。这是英伟达有史以来最复杂的端到端机架级集群系统,集成了Rubin GPU(NVL72)、自研的Vera CPU、ConnectX-9网络、BlueField-4安全处理器,以及全球首款200Gb CPO(光电共封装)光学以太网Spectrum-X交换机。其供应链规模是Grace Blackwell的两倍,并且通过创新的无缆化中板(midplane)设计,将单个机架的组装时间从2小时大幅缩短至5分钟。
**Vera CPU:英伟达进军CPU市场的战略利器**
英伟达推出了专为AI智能体设计的自研Vera CPU,该CPU基于全新的Olympus核心架构,无疑是本次演讲中最具战略意义的发布。黄仁勋指出:“未来智能体的数量将远超人类,并且它们在调用工具、访问数据库时对延迟的容忍度极低。传统为‘人类’设计的CPU天然不适应纳秒级的异构计算,这是一个被英伟达凭空创造出的全新巨大市场。”
在实际工作负载中,Vera CPU凭借消除了Chiplet损耗的单体网格互联(3.6 TB/s核心带宽)以及强大的单线程IPC(每周期指令数)性能,将SQL数据库处理速度提升了3倍,在纽约证券交易所的实时流处理任务中更是飙升了6倍,直接打破了传统处理器的性能瓶颈。
**开源工具包与5倍速Nemotron-3 Ultra:降低企业智能体门槛**
为帮助全球企业以软件组装的方式安全、定制化部署智能体,英伟达推出了智能体企业AI工具包(Agentic Toolkit for Enterprise AI),其中包括开源的OpenShell安全沙盒及编排框架。
黄仁勋现场展示了与Cadence(楷登电子)联合开发的芯片设计超级智能体,该智能体通过自动化RTL验证与调试,将原需数周的迭代周期缩短至数小时,效率提升40倍。作为此生态系统的基石,英伟达正式发布了Nemotron-3 Ultra开源模型。该模型基于全新的SSM(状态空间模型)与MoE(混合专家模型)混合架构,推理速度提高了5倍,总成本降低了30%,并且全面开源了训练脚本和工具调用数据集,与CrowdStrike、Palantir、SAP和ServiceNow等巨头共同壮大企业智能体生态系统。
**40年来首次重新定义PC**
在终端侧,英伟达与微软携手,重构了历经40年演变的个人电脑生态系统,推出了全新的RTX Spark智能体计算平台。
其核心动力来源于英伟达与联发科(MediaTek)联合研发的N1X芯片:该芯片集成了Blackwell架构的GPU(提供1 PetaFLOP算力)、20核定制的Grace CPU以及128GB统一内存,并采用台积电3nm工艺。
演讲现场演示了一个颇具冲击力的场景:在RTX Spark笔记本上本地运行智能体,通过集成的MCP(模型上下文协议)服务器直接与本地软件交互,并连接云端Claude Sonnet,完成了从概念草图到3D建筑效果图的全流程设计。智能体自主调用Rhino、Blender和Flux 2进行协作,全程自动纠错,无需人工干预。
新的PC产品线涵盖笔记本、台式机和DGX Station三种形态(后者配备768GB内存,可在桌面端运行万亿参数模型)。黄仁勋预测:十年后,家庭AI超级计算机将像现代家电一样普及,这一PC的再发明与智能手机的诞生具有同等重要的意义。
**物理AI:Cosmos 3与具身智能**
演讲的尾声聚焦于物理AI与具身智能。黄仁勋认为物理AI的致命痛点在于第一人称维度的机器视角数据极度匮乏,对此英伟达祭出了核心武器——Cosmos 3开源前沿世界模型。
Cosmos 3融合了自回归与扩散Transformer架构,能够统一处理像素、动作、声音和语言,直接通过计算生成完全符合真实物理规律的合成视频,成为机器人的“虚拟导师”。在此基础上,英伟达发布了具备自言自语思考能力的推理级自动驾驶模型Alphamayo,以及高度集成的Isaac GR00T人形机器人参考开发平台。该机器人拥有31个自由度(包括25个自由度的灵巧手),由Jetson Thor芯片驱动,整套软件栈可在数小时内供全球科研机构开箱即用。
**核心信号**
回顾整场演讲,黄仁勋反复强调一个核心逻辑:算力即营收,每瓦Token数即利润率。英伟达的竞争壁垒不再仅仅是单一的GPU性能,而是从芯片到机架、从软件到运维、从云端到终端PC的全栈整合与极致协同设计能力。
当单个AI工厂的建设成本正迈向千亿美元级别时,谁能帮助客户更快投产、更高效运营、更长时间盈利,谁就能赢得这个时代。黄仁勋在Computex上传递的最核心信号只有一个:英伟达已不再是一家单纯的GPU公司,而是智能体时代不可替代的基础设施垄断者。
黄仁勋在演讲中提及,他很高兴回到家乡,并向观众介绍了他的父母,感谢了开场表演者——中国台湾的超级明星们。他指出,现场人数众多,全球70个观看派对正同步直播。他还提到,中国台湾的生态系统已变得极其庞大,涵盖从上游供应链合作伙伴到数据中心和终端用户的广阔范围。他表示,今年他们共同的业务正以惊人的速度增长,中国台湾今年的年度GDP预计将增长近10%。
他解释了智能体AI时代的到来,指出两年前他曾预测AI将从生成式AI转向下一波浪潮——智能体AI。如今,他宣布智能体AI已经到来,实用AI也已实现。
他以GitHub为例说明了智能体AI最早落地的应用场景之一:软件编程。全球有3000万至4000万名专业软件开发者,加上学生和爱好者,总计有数亿人从事编程。GitHub的代码提交量从2023年的约3亿次,到2024年的约4亿次,再到2025年的约5亿次,而2026年前几个月提交数量已接近三倍增长。这意味着全球3000万软件开发者每年创造约3万亿美元的工资性GDP,带动了约100万亿美元的全球产业增长。现在,同样的3万亿美元工资正在产生近3倍的产出,相当于9万亿美元的生产力。
黄仁勋反驳了AI会减少就业岗位的说法,认为这完全是无稽之谈。他强调AI实际上正在促使更多软件工程师被雇佣,因为如果雇佣一名软件工程师就能创造9万亿美元的生产价值,谁会不想多雇佣呢?他预测这一趋势将很快在经济中显现。
他进一步解释了实用AI的到来在产业角度意味着什么:Token(推理令牌)正处于前所未有的需求爆发期。AI已成为利润来源,Token已成为可变现的盈利单元。正因为AI已经可以盈利,AI公司正争相生产更多Token,建设更多AI工厂,这正是中国台湾算力需求急剧攀升的根本原因。算力模式已彻底改变,AI不再仅限于大型语言模型,而是一个完整的智能体系统,这构成了演讲中几乎所有内容的根本基础。
黄仁勋详细解释了智能体的架构。他指出,过去的系统是应用程序经由代码和操作系统运行。如今,它是一个智能体,由一个或多个大型语言模型(LLM)嵌套在一个“框架”(Harness)中,框架负责协调整个系统完成实际工作。
输入数据后,智能体需要进行观察(Observe)、推理(Reason)、行动(Act),并使用工具(Use Tools),这些工具可以是电子表格、网络浏览器、数据处理引擎、数据库引擎等。框架负责协调所有信息流转。智能体还具备短期工作记忆(Working Memory,即KV缓存)和长期记忆(Long-term Memory),如同人类一般。整个系统——由大型语言模型负责思考,框架连接一切,宛如操作系统——构成了新的计算模型。他强调这是重大的突破:大型语言模型在推理、规划、工具使用方面已达到相当水平,配合管理记忆与编排的框架,如今能完成令人惊叹的任务。
许多人认为智能体AI的到来将颠覆所有软件公司。黄仁勋的判断恰恰相反:因为未来将有无数智能体,世界不再受限于人类的数量,这些智能体将使用比以往更多的工具。这对于软件公司而言是绝佳时机,但前提是软件必须能以智能体可调用的方式提供。
英伟达的CUDA-X库正是这一宝库。20年前,英伟达构建了CUDA——一个统一的加速计算架构,重新定义了计算。1000多个CUDA-X库帮助开发者在每个科学和工程领域取得突破。这些库涵盖cuLitho(计算光刻)、cuOpt(决策优化)、cuDSS(稀疏直接求解器)、AIQ(结构化与非结构化文档的深度研究)、Aerial(AI-RAN,AI驱动的无线接入网)、Warp(可微分物理仿真)、Parabricks(基因组学)等。这些库的底层是精妙的数学算法。未来,CUDA-X库将以“技能包”(Skills)形式提供给智能体,配备使用说明文档,供AI学习如何调用,甚至其效果将超越人类使用者。
智能体系统是一种高度分散化、分布式的计算模型。正是这一架构需求,催生了Vera Rubin的完整设计。处理一次智能体调用,需要激活整套计算基础设施:大数据语言模型负责思考(每次激活均需一整套Vera Rubin NVL72系统,采用NVLink 72互连技术),工具调用使用CPU(可能是C编译器、Python、JavaScript或加速计算),框架的编排与安全运行在CPU和DPU(Bluefield)上,内存管理(KV缓存的压缩、检索、知识图谱)极其复杂。智能体的内存系统,将彻底革新存储系统的形态。
Vera Rubin并非一颗芯片,也不仅仅是GPU,而是一套完整的端到端系统,包含Vera Rubin GPU(NVL72,采用NVLink 72互连)、Vera CPU、CX9网络、全栈软件、Bluefield安全处理器(支持静态、传输中和使用中的数据加密),整套系统遵循机密计算(Confidential Computing)标准,因为AI模型异常珍贵。
Vera Rubin是英伟达历史上最宏大的工程壮举,由公司40000名工程师以及所有合作伙伴共同参与。Vera Rubin是一个奇迹,由五个相互连接的机架级系统构成,涉及中国台湾150家供应链合作伙伴,数百万平方英尺的工厂面积,数百个生产点位。他宣布Vera Rubin现已进入全面量产阶段,其供应链规模是Grace Blackwell的两倍,而一个机架的组装时间从原来的2小时缩短至仅需5分钟。
世界正在竞相建造AI工厂,这是人类历史上规模最大的基础设施建设浪潮。AI工厂极为复杂,每一层——芯片、机架、网络、电力、冷却、电网——都必须从端到端整体设计。因为算力即营收,英伟达DSX(数据中心基础设施蓝图)正是AI工厂的标准参考设计。DSX主要包含:DSX Sim(仿真),通过Omniverse蓝图,合作伙伴在第一台机架落地前,便可在数字孪生中完成AI工厂的设计、验证、模拟电力和冷却、网络规划;DSX OS,工厂上电后自动接管,负责资源调配、运营监控与故障修复,将已安装系统转化为可信、多租户、高可用的AI就绪产能;DSX MaxLPS,当前AI工厂普遍超额配置电力达40%,DSX MaxLPS允许在相同电力预算内部署更多GPU,每年创造数十亿美元额外收益,支持45摄氏度热液冷却,节水节能,动态电力分配可在机架间实时调度,回收“搁浅瓦数”;DSX Flex,将AI工厂作为灵活储能资产,实时读取电网信号,在电网需要调峰时动态调整工厂用电。他预测,到本十年末,将有100吉瓦的AI工厂上线。英伟达DSX AI工厂将以最高效率运行、生产成本最低的Token,同时使电网更加稳定。
英伟达已从GPU公司、系统公司,进化为AI基础设施公司。值得注意的是,当前每座吉瓦级AI工厂的建设造价已从最初的200亿至300亿美元,攀升至500亿至600亿美元,并很快将达到800亿至1000亿美元。如此规模的资本投入,必须一次建成、立即运转,资本成本极高,容错空间极小。他解释了选择英伟达至关重要的四个原因:第一,更短的投产时间(Time to First Token),英伟达整套基础设施完整连接,自行建设,确保一切运行正常,客户能更快开始推理和训练;第二,更高的每瓦Token数(Tokens per Watt),数据中心有固定的电力预算,每瓦效能直接影响营收。选择平价但低效的架构并不划算,必须确保每多买一台就能多赚一分;第三,超高的可靠性,大规模数据中心数百万根线缆协同运行极难,英伟达长期运营超大规模系统的经验至关重要;第四,更长的系统生命周期,AI软件持续快速演进,如果架构缺乏灵活性,生态系统不够丰富,系统生命周期就会很短。英伟达生态系统已无处不在,软件开发者天然从CUDA起步,因此系统的有效资产寿命远长于其他方案,总拥有成本(TCO)大幅降低。
过去的CPU都是为人类而建,人类生活在以秒计时的世界里。但智能体没有耐心,它们活在以纳秒计时的世界里。智能体调用工具时,需要越快响应越好;访问数据库时,必须尽快返回结果——每一刻的等待,都阻碍着智能体进入下一步。因此,英伟达为智能体时代打造了全新的Vera CPU。其核心是英伟达自研的Olympus数据中心CPU核心架构,专为现代数据中心工作负载优化,包括分支密集的Python运行时、工具调用和沙箱代码执行。
Vera CPU具备四大核心设计目标:第一,极高的单线程性能(IPC),每时钟周期可获取、解码并执行10条指令,全球最高。智能体需要低延迟而非高吞吐量;第二,超高的内核带宽,英伟达第二代可扩展一致性互联架构(Scalable Coherency Fabric),将88个Olympus内核通过整体网格连接,内核到内核通信速度比传统CPU快50%;采用NVLink芯片到芯片互连,可将GPU直接接入内存一致性互联架构,还可多插槽扩展;第三,惊人的系统带宽,LPDDR5X内存,1.2 TB/s带宽,相当于最高性能x86 CPU的3倍;率先支持PCIe Gen6;支持多比特错误纠正同时不损失带宽,峰值内存延迟比x86低40%;第四,极致的能效,CPU不能抢夺GPU生成Token所需的电力,必须在高性能的同时做到极度节能。
Vera的基准测试结果令人震惊:SQL数据库查询速度提升3倍,纽约证券交易所实时流处理速度提升6倍,智能体沙箱性能比x86 CPU高1.8倍。Vera已与全球几乎所有主流ODM和服务器厂商合作,正在开辟一个全新市场。由于未来智能体数量将远超人类数量,且智能体极度没有耐心,这个市场的规模必将超过以往任何一代CPU市场。
每家公司都将成为智能体公司。为此,英伟达打造了英伟达企业AI工具包(Nvidia Agent Toolkit for Enterprise AI),包含四个核心组件:第一,模型(Models),英伟达开放的世界级模型,可以直接使用或按需微调,也可运行来自任何供应商的智能体,包括Claude Code(Anthropic)、Codex(OpenAI旗下编程智能体)等;第二,框架(Harness),Open Shell——一个高安全性的企业级智能体框架(开源),它为智能体提供安全沙盒。
