英伟达GTC 2026：黄仁勋宣告智能体AI时代来临，全栈战略加速落地

北京时间2026年6月1日，英伟达创始人兼CEO黄仁勋在中国台北的GTC 2026大会上发表了重要的主题演讲。

他明确指出，两年前播下的生成式AI种子已经结出累累硕果，标志着“有用的人工智能”时代的到来，而智能体AI的全面崛起正是这一新时代的鲜明特征。在这次演讲中，黄仁勋不仅发布了专为智能体量产设计的顶级硬件集群，还对从芯片、基础设施到个人电脑的整个计算架构进行了全新解读。

此次演讲并非单纯的产品发布会，而是一次系统的范式宣告：AI正从“能用”迈向“有用”，从“内容生成”转向“任务完成”。英伟达也正经历一次深刻的自我重塑，从一家GPU公司逐步转型为AI基础设施供应商。

**智能体驱动AI走向商业闭环**

黄仁勋开篇即提出了颠覆性的行业洞察：大型语言模型（LLM）正迅速演变为具备理解、观察、推理和规划能力的“智能体系统”。针对“AI导致失业”的论调，他直言其为“无稽之谈”。

GitHub的代码提交量从2023年的3亿次逐年攀升，到2026年初已接近3倍，达到约9亿次。其背后的商业逻辑在于：3万亿美元的工程师薪酬投入，在智能体的赋能下，如今能产出近9万亿美元的生产力价值。AI并非取代工作，而是在指数级提升每位工程师的产出。当计算本身成为高效益的经济单位，Token的生成也随之盈利，这直接推动了全球对AI工厂算力需求的爆炸式增长。

**Vera Rubin全面量产：专为智能体打造的超级计算机**

本次演讲中最引人注目的硬件发布是Vera Rubin架构的正式全面量产。这是英伟达有史以来最复杂的端到端机架级集群系统，集成了Rubin GPU（NVL72）、自研的Vera CPU、ConnectX-9网络、BlueField-4安全处理器，以及全球首款200Gb CPO（光电共封装）光学以太网Spectrum-X交换机。其供应链规模是Grace Blackwell的两倍，并且通过创新的无缆化中板（midplane）设计，将单个机架的组装时间从2小时大幅缩短至5分钟。

**Vera CPU：英伟达进军CPU市场的战略利器**

英伟达推出了专为AI智能体设计的自研Vera CPU，该CPU基于全新的Olympus核心架构，无疑是本次演讲中最具战略意义的发布。黄仁勋指出：“未来智能体的数量将远超人类，并且它们在调用工具、访问数据库时对延迟的容忍度极低。传统为‘人类’设计的CPU天然不适应纳秒级的异构计算，这是一个被英伟达凭空创造出的全新巨大市场。”

在实际工作负载中，Vera CPU凭借消除了Chiplet损耗的单体网格互联（3.6 TB/s核心带宽）以及强大的单线程IPC（每周期指令数）性能，将SQL数据库处理速度提升了3倍，在纽约证券交易所的实时流处理任务中更是飙升了6倍，直接打破了传统处理器的性能瓶颈。

**开源工具包与5倍速Nemotron-3 Ultra：降低企业智能体门槛**

为帮助全球企业以软件组装的方式安全、定制化部署智能体，英伟达推出了智能体企业AI工具包（Agentic Toolkit for Enterprise AI），其中包括开源的OpenShell安全沙盒及编排框架。

黄仁勋现场展示了与Cadence（楷登电子）联合开发的芯片设计超级智能体，该智能体通过自动化RTL验证与调试，将原需数周的迭代周期缩短至数小时，效率提升40倍。作为此生态系统的基石，英伟达正式发布了Nemotron-3 Ultra开源模型。该模型基于全新的SSM（状态空间模型）与MoE（混合专家模型）混合架构，推理速度提高了5倍，总成本降低了30%，并且全面开源了训练脚本和工具调用数据集，与CrowdStrike、Palantir、SAP和ServiceNow等巨头共同壮大企业智能体生态系统。

**40年来首次重新定义PC**

在终端侧，英伟达与微软携手，重构了历经40年演变的个人电脑生态系统，推出了全新的RTX Spark智能体计算平台。

其核心动力来源于英伟达与联发科（MediaTek）联合研发的N1X芯片：该芯片集成了Blackwell架构的GPU（提供1 PetaFLOP算力）、20核定制的Grace CPU以及128GB统一内存，并采用台积电3nm工艺。

演讲现场演示了一个颇具冲击力的场景：在RTX Spark笔记本上本地运行智能体，通过集成的MCP（模型上下文协议）服务器直接与本地软件交互，并连接云端Claude Sonnet，完成了从概念草图到3D建筑效果图的全流程设计。智能体自主调用Rhino、Blender和Flux 2进行协作，全程自动纠错，无需人工干预。

新的PC产品线涵盖笔记本、台式机和DGX Station三种形态（后者配备768GB内存，可在桌面端运行万亿参数模型）。黄仁勋预测：十年后，家庭AI超级计算机将像现代家电一样普及，这一PC的再发明与智能手机的诞生具有同等重要的意义。

**物理AI：Cosmos 3与具身智能**

演讲的尾声聚焦于物理AI与具身智能。黄仁勋认为物理AI的致命痛点在于第一人称维度的机器视角数据极度匮乏，对此英伟达祭出了核心武器——Cosmos 3开源前沿世界模型。

Cosmos 3融合了自回归与扩散Transformer架构，能够统一处理像素、动作、声音和语言，直接通过计算生成完全符合真实物理规律的合成视频，成为机器人的“虚拟导师”。在此基础上，英伟达发布了具备自言自语思考能力的推理级自动驾驶模型Alphamayo，以及高度集成的Isaac GR00T人形机器人参考开发平台。该机器人拥有31个自由度（包括25个自由度的灵巧手），由Jetson Thor芯片驱动，整套软件栈可在数小时内供全球科研机构开箱即用。

**核心信号**

回顾整场演讲，黄仁勋反复强调一个核心逻辑：算力即营收，每瓦Token数即利润率。英伟达的竞争壁垒不再仅仅是单一的GPU性能，而是从芯片到机架、从软件到运维、从云端到终端PC的全栈整合与极致协同设计能力。

当单个AI工厂的建设成本正迈向千亿美元级别时，谁能帮助客户更快投产、更高效运营、更长时间盈利，谁就能赢得这个时代。黄仁勋在Computex上传递的最核心信号只有一个：英伟达已不再是一家单纯的GPU公司，而是智能体时代不可替代的基础设施垄断者。

黄仁勋在演讲中提及，他很高兴回到家乡，并向观众介绍了他的父母，感谢了开场表演者——中国台湾的超级明星们。他指出，现场人数众多，全球70个观看派对正同步直播。他还提到，中国台湾的生态系统已变得极其庞大，涵盖从上游供应链合作伙伴到数据中心和终端用户的广阔范围。他表示，今年他们共同的业务正以惊人的速度增长，中国台湾今年的年度GDP预计将增长近10%。

他解释了智能体AI时代的到来，指出两年前他曾预测AI将从生成式AI转向下一波浪潮——智能体AI。如今，他宣布智能体AI已经到来，实用AI也已实现。

他以GitHub为例说明了智能体AI最早落地的应用场景之一：软件编程。全球有3000万至4000万名专业软件开发者，加上学生和爱好者，总计有数亿人从事编程。GitHub的代码提交量从2023年的约3亿次，到2024年的约4亿次，再到2025年的约5亿次，而2026年前几个月提交数量已接近三倍增长。这意味着全球3000万软件开发者每年创造约3万亿美元的工资性GDP，带动了约100万亿美元的全球产业增长。现在，同样的3万亿美元工资正在产生近3倍的产出，相当于9万亿美元的生产力。

黄仁勋反驳了AI会减少就业岗位的说法，认为这完全是无稽之谈。他强调AI实际上正在促使更多软件工程师被雇佣，因为如果雇佣一名软件工程师就能创造9万亿美元的生产价值，谁会不想多雇佣呢？他预测这一趋势将很快在经济中显现。

他进一步解释了实用AI的到来在产业角度意味着什么：Token（推理令牌）正处于前所未有的需求爆发期。AI已成为利润来源，Token已成为可变现的盈利单元。正因为AI已经可以盈利，AI公司正争相生产更多Token，建设更多AI工厂，这正是中国台湾算力需求急剧攀升的根本原因。算力模式已彻底改变，AI不再仅限于大型语言模型，而是一个完整的智能体系统，这构成了演讲中几乎所有内容的根本基础。

黄仁勋详细解释了智能体的架构。他指出，过去的系统是应用程序经由代码和操作系统运行。如今，它是一个智能体，由一个或多个大型语言模型（LLM）嵌套在一个“框架”（Harness）中，框架负责协调整个系统完成实际工作。

输入数据后，智能体需要进行观察（Observe）、推理（Reason）、行动（Act），并使用工具（Use Tools），这些工具可以是电子表格、网络浏览器、数据处理引擎、数据库引擎等。框架负责协调所有信息流转。智能体还具备短期工作记忆（Working Memory，即KV缓存）和长期记忆（Long-term Memory），如同人类一般。整个系统——由大型语言模型负责思考，框架连接一切，宛如操作系统——构成了新的计算模型。他强调这是重大的突破：大型语言模型在推理、规划、工具使用方面已达到相当水平，配合管理记忆与编排的框架，如今能完成令人惊叹的任务。

许多人认为智能体AI的到来将颠覆所有软件公司。黄仁勋的判断恰恰相反：因为未来将有无数智能体，世界不再受限于人类的数量，这些智能体将使用比以往更多的工具。这对于软件公司而言是绝佳时机，但前提是软件必须能以智能体可调用的方式提供。

英伟达的CUDA-X库正是这一宝库。20年前，英伟达构建了CUDA——一个统一的加速计算架构，重新定义了计算。1000多个CUDA-X库帮助开发者在每个科学和工程领域取得突破。这些库涵盖cuLitho（计算光刻）、cuOpt（决策优化）、cuDSS（稀疏直接求解器）、AIQ（结构化与非结构化文档的深度研究）、Aerial（AI-RAN，AI驱动的无线接入网）、Warp（可微分物理仿真）、Parabricks（基因组学）等。这些库的底层是精妙的数学算法。未来，CUDA-X库将以“技能包”（Skills）形式提供给智能体，配备使用说明文档，供AI学习如何调用，甚至其效果将超越人类使用者。

智能体系统是一种高度分散化、分布式的计算模型。正是这一架构需求，催生了Vera Rubin的完整设计。处理一次智能体调用，需要激活整套计算基础设施：大数据语言模型负责思考（每次激活均需一整套Vera Rubin NVL72系统，采用NVLink 72互连技术），工具调用使用CPU（可能是C编译器、Python、JavaScript或加速计算），框架的编排与安全运行在CPU和DPU（Bluefield）上，内存管理（KV缓存的压缩、检索、知识图谱）极其复杂。智能体的内存系统，将彻底革新存储系统的形态。

Vera Rubin并非一颗芯片，也不仅仅是GPU，而是一套完整的端到端系统，包含Vera Rubin GPU（NVL72，采用NVLink 72互连）、Vera CPU、CX9网络、全栈软件、Bluefield安全处理器（支持静态、传输中和使用中的数据加密），整套系统遵循机密计算（Confidential Computing）标准，因为AI模型异常珍贵。

Vera Rubin是英伟达历史上最宏大的工程壮举，由公司40000名工程师以及所有合作伙伴共同参与。Vera Rubin是一个奇迹，由五个相互连接的机架级系统构成，涉及中国台湾150家供应链合作伙伴，数百万平方英尺的工厂面积，数百个生产点位。他宣布Vera Rubin现已进入全面量产阶段，其供应链规模是Grace Blackwell的两倍，而一个机架的组装时间从原来的2小时缩短至仅需5分钟。

世界正在竞相建造AI工厂，这是人类历史上规模最大的基础设施建设浪潮。AI工厂极为复杂，每一层——芯片、机架、网络、电力、冷却、电网——都必须从端到端整体设计。因为算力即营收，英伟达DSX（数据中心基础设施蓝图）正是AI工厂的标准参考设计。DSX主要包含：DSX Sim（仿真），通过Omniverse蓝图，合作伙伴在第一台机架落地前，便可在数字孪生中完成AI工厂的设计、验证、模拟电力和冷却、网络规划；DSX OS，工厂上电后自动接管，负责资源调配、运营监控与故障修复，将已安装系统转化为可信、多租户、高可用的AI就绪产能；DSX MaxLPS，当前AI工厂普遍超额配置电力达40%，DSX MaxLPS允许在相同电力预算内部署更多GPU，每年创造数十亿美元额外收益，支持45摄氏度热液冷却，节水节能，动态电力分配可在机架间实时调度，回收“搁浅瓦数”；DSX Flex，将AI工厂作为灵活储能资产，实时读取电网信号，在电网需要调峰时动态调整工厂用电。他预测，到本十年末，将有100吉瓦的AI工厂上线。英伟达DSX AI工厂将以最高效率运行、生产成本最低的Token，同时使电网更加稳定。

英伟达已从GPU公司、系统公司，进化为AI基础设施公司。值得注意的是，当前每座吉瓦级AI工厂的建设造价已从最初的200亿至300亿美元，攀升至500亿至600亿美元，并很快将达到800亿至1000亿美元。如此规模的资本投入，必须一次建成、立即运转，资本成本极高，容错空间极小。他解释了选择英伟达至关重要的四个原因：第一，更短的投产时间（Time to First Token），英伟达整套基础设施完整连接，自行建设，确保一切运行正常，客户能更快开始推理和训练；第二，更高的每瓦Token数（Tokens per Watt），数据中心有固定的电力预算，每瓦效能直接影响营收。选择平价但低效的架构并不划算，必须确保每多买一台就能多赚一分；第三，超高的可靠性，大规模数据中心数百万根线缆协同运行极难，英伟达长期运营超大规模系统的经验至关重要；第四，更长的系统生命周期，AI软件持续快速演进，如果架构缺乏灵活性，生态系统不够丰富，系统生命周期就会很短。英伟达生态系统已无处不在，软件开发者天然从CUDA起步，因此系统的有效资产寿命远长于其他方案，总拥有成本（TCO）大幅降低。

过去的CPU都是为人类而建，人类生活在以秒计时的世界里。但智能体没有耐心，它们活在以纳秒计时的世界里。智能体调用工具时，需要越快响应越好；访问数据库时，必须尽快返回结果——每一刻的等待，都阻碍着智能体进入下一步。因此，英伟达为智能体时代打造了全新的Vera CPU。其核心是英伟达自研的Olympus数据中心CPU核心架构，专为现代数据中心工作负载优化，包括分支密集的Python运行时、工具调用和沙箱代码执行。

Vera CPU具备四大核心设计目标：第一，极高的单线程性能（IPC），每时钟周期可获取、解码并执行10条指令，全球最高。智能体需要低延迟而非高吞吐量；第二，超高的内核带宽，英伟达第二代可扩展一致性互联架构（Scalable Coherency Fabric），将88个Olympus内核通过整体网格连接，内核到内核通信速度比传统CPU快50%；采用NVLink芯片到芯片互连，可将GPU直接接入内存一致性互联架构，还可多插槽扩展；第三，惊人的系统带宽，LPDDR5X内存，1.2 TB/s带宽，相当于最高性能x86 CPU的3倍；率先支持PCIe Gen6；支持多比特错误纠正同时不损失带宽，峰值内存延迟比x86低40%；第四，极致的能效，CPU不能抢夺GPU生成Token所需的电力，必须在高性能的同时做到极度节能。

Vera的基准测试结果令人震惊：SQL数据库查询速度提升3倍，纽约证券交易所实时流处理速度提升6倍，智能体沙箱性能比x86 CPU高1.8倍。Vera已与全球几乎所有主流ODM和服务器厂商合作，正在开辟一个全新市场。由于未来智能体数量将远超人类数量，且智能体极度没有耐心，这个市场的规模必将超过以往任何一代CPU市场。

每家公司都将成为智能体公司。为此，英伟达打造了英伟达企业AI工具包（Nvidia Agent Toolkit for Enterprise AI），包含四个核心组件：第一，模型（Models），英伟达开放的世界级模型，可以直接使用或按需微调，也可运行来自任何供应商的智能体，包括Claude Code（Anthropic）、Codex（OpenAI旗下编程智能体）等；第二，框架（Harness），Open Shell——一个高安全性的企业级智能体框架（开源），它为智能体提供安全沙盒。