NVIDIA GTC 2026 最引人注目的產品,或許不是新一代 GPU。
在三月中旬的聖荷西,黃仁勳走上舞台,宣布 NVIDIA 正式推出獨立販售的 CPU 產品 Vera。他隨即說了一句耐人尋味的話:「我們從未想過會單獨販售 CPU,但我們確實賣出了大量獨立 CPU。」
一家靠 GPU 統治 AI 市場的公司,為什麼突然開始賣 CPU?答案就在同一場演講的開場宣告:「推論的拐點已經到來。AI 現在可以做生產性工作,一旦發生這件事,需求格局就會徹底改變。」
這兩句話,解釋了當前 AI 晶片市場正在發生的事:一場安靜但深遠的版圖重組。
理解這場重組,要先理解訓練(training)與推論(inference)的差異。
AI 訓練是讓模型從海量資料中學習的過程。這個場景極度依賴 GPU 的並行計算能力,NVIDIA 幾乎無可取代。AI 推論則不同。當模型開始對外「工作」,回應問題、執行任務、呼叫工具,進入的是 CPU 更加吃重的領域。
在代理型 AI(Agentic AI)的情境下,這個差異尤為明顯。一個 AI 代理瀏覽網頁、讀取試算表、呼叫外部 API、管理快取記憶體(KV cache),都依賴 CPU 的高單執行緒效能與記憶體頻寬,而非 GPU 的大規模平行運算。
Vera CPU 正是為此而生。88 個核心、1.2 TB/s 記憶體頻寬,較傳統 CPU 效能快 50%、記憶體頻寬提升一倍,功耗減半。黃仁勳說得直接:「AI 需要 CPU 來處理工具呼叫,Vera CPU 就是為這個場景精準設計的。」
要掌控完整的推論經濟,NVIDIA 必須同時掌握 CPU。
Vera CPU 的出現,折射出一個更大的產業現象:各大科技公司正在推論時代的版圖上,各自找到定位。
Google 的方向最鮮明。最新一代晶片 Ironwood(TPU v7)發表時,官方定位直接寫著:「首款專為推論時代設計的 TPU」。單顆晶片達到 4.6 PetaFLOPS 的 FP8 運算能力,擴展至 9,216 顆晶片時可達 42.5 ExaFLOPS,記憶體頻寬高達 7.2 TB/s,同時供 Google 內部 Gemini 模型及 Google Cloud 外部客戶使用。
Amazon 走的路徑相似。自研晶片 Trainium 2 在 2024 年底正式上市,Anthropic 在上面部署了近 100 萬顆晶片(含前代),處理 Claude 的訓練與推論,同類模型在 Amazon Bedrock 上的詞元(token,AI 語言模型的最小輸出單位)吞吐量,是競爭對手的三倍。接下來的 Trainium3,單顆運算效能達 2.52 PFLOPS,是 Trainium2 的兩倍;整套 UltraServer 系統的能源效率,則比前一代提升逾四倍
Microsoft 的 Maia 200 以台積電 3 奈米製程打造,搭載超過 1,400 億個電晶體,目前為 Microsoft 365 Copilot、Azure AI Foundry 及 OpenAI 的模型提供推論算力。
Amazon 和 Microsoft 的自研晶片全部只供自用,目標很清楚:把自家 AI 服務的推論算力,從 NVIDIA 的定價體系中解放出來。Google 的 TPU 歷來也是如此,但據《The Information》2 月下旬報導,Google 與 Meta 已簽署一筆數十億美元的晶片合作案。業界估算,其規劃是 2026 年先讓 Meta 透過 Google Cloud 租用 TPU,若 2027 年效能測試通過,Meta 再直接購買約 50 至 80 萬顆晶片,部署至自家資料中心。Google 和 Meta 雙方均未公開確認細節。若最終成真,將是 Google TPU 首度對外販售,也代表這場「自研晶片自用」的共識,已開始出現裂縫。
在開放市場上,AMD 是目前最具體的競爭者。MI300X 搭載 192GB HBM3 記憶體,是同期 NVIDIA H100 的兩倍有餘,讓部署大型模型時能用更少的晶片完成。Meta 目前 Llama 405B 的全部線上推論流量,就跑在 MI300X 上。
MI325X 進一步將記憶體擴充至 256GB,在高延遲容忍的推論場景表現尤為突出。AMD 的主要弱點仍在軟體生態,ROCm 與 CUDA 的開發者覆蓋率差距,使實際工作負載的硬體使用率,有時只達理論峰值的三分之一至三分之二。
Intel 則選擇明確退場。Gaudi 3 透過 Dell、HPE 等 OEM 廠商銷售,官方已明確表態不與 NVIDIA 正面競爭,鎖定對成本敏感的企業級推論市場。目前 Intel 在離散 AI 加速晶片市場的市佔率不到 1%。
面對這些挑戰者,NVIDIA 的應對是擴張,把推論的完整技術棧都納入版圖。
Groq 的加入是最明顯的訊號。Groq 的處理器採用確定性資料流架構,靜態排程、每顆晶片搭載 500MB 的片上 SRAM,設計目標只有一個:高速詞元生成。弱點是記憶體容量有限,放不下大型模型的完整參數,難以單獨規模化。
NVIDIA 的解法是用推論排程軟體 Dynamo 將管線拆開。Vera Rubin 負責需要大量計算的前段工作,Groq 負責延遲最敏感的詞元生成。兩者緊密結合後,最高階推論層的每瓦詞元產出效率,較純 Vera Rubin 提升 35 倍。
黃仁勳用「詞元工廠」的概念說明這件事的意義。在一座功率固定的資料中心裡,每瓦特能生成多少詞元,決定了整座工廠的營收上限。Vera Rubin 加 Groq 的目標,就是把這個上限盡可能往上推。
回頭看整個格局,每個玩家都在推論時代找到了自己的位置。三大雲端巨頭各守自家雲端壓低成本、AMD 主打大型模型的記憶體優勢、Intel 退守企業市場。多個專精方向的生態系,正在 NVIDIA 主導的版圖邊緣,各自生長。
NVIDIA 的護城河仍然厚實。CUDA 生態系二十年的積累、供應鏈的鎖定深度(截至今年一月,製造與供應承諾金額達 952 億美元),加上 Morgan Stanley 分析師 Joe Moore 觀察到的現象:客戶試用競品後,最終還是回到 NVIDIA。
護城河的深度,擋不住邊界的移動。AI 工作負載的重心從訓練轉向推論,需求結構改變了,競爭版圖也跟著移動。NVIDIA 意識到這一點,所以親自跨入 CPU 市場。往後幾年,「主導」這個詞對 NVIDIA 的意義,將與過去大不相同。
參考資料:NVIDIA Newsroom、NVIDIA、Google Blog、TechCrunch、TechCrunch2、 Microsoft Blog、SemiAnalysis、SemiWiki、The Wall Street Journal
責任編輯:Sisley
核稿編輯:Mia
加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員!
延伸閱讀:


