詞元工廠爭奪戰開打，NVIDIA 稱霸 GPU 市場，但晶片版圖已開始鬆動。詞元工廠爭奪戰開打，NVIDIA 稱霸 GPU 市場，但晶片版圖已開始鬆動。

NVIDIA 親自下場賣 CPU：詞元工廠時代的第一個信號

作者：Inside

來源：Inside

2026/03/19 13:05

閱讀時長 11 分鐘

GPU$0.03318+1.03%

如需對本內容提供反饋或相關疑問，請通過郵箱 [email protected] 聯絡我們。

NVIDIA GTC 2026 最引人注目的產品，或許不是新一代 GPU。

在三月中旬的聖荷西，黃仁勳走上舞台，宣布 NVIDIA 正式推出獨立販售的 CPU 產品 Vera。他隨即說了一句耐人尋味的話：「我們從未想過會單獨販售 CPU，但我們確實賣出了大量獨立 CPU。」

一家靠 GPU 統治 AI 市場的公司，為什麼突然開始賣 CPU？答案就在同一場演講的開場宣告：「推論的拐點已經到來。AI 現在可以做生產性工作，一旦發生這件事，需求格局就會徹底改變。」

這兩句話，解釋了當前 AI 晶片市場正在發生的事：一場安靜但深遠的版圖重組。

訓練與推論，對晶片的要求截然不同

理解這場重組，要先理解訓練（training）與推論（inference）的差異。

AI 訓練是讓模型從海量資料中學習的過程。這個場景極度依賴 GPU 的並行計算能力，NVIDIA 幾乎無可取代。AI 推論則不同。當模型開始對外「工作」，回應問題、執行任務、呼叫工具，進入的是 CPU 更加吃重的領域。

在代理型 AI（Agentic AI）的情境下，這個差異尤為明顯。一個 AI 代理瀏覽網頁、讀取試算表、呼叫外部 API、管理快取記憶體（KV cache），都依賴 CPU 的高單執行緒效能與記憶體頻寬，而非 GPU 的大規模平行運算。

Vera CPU 正是為此而生。88 個核心、1.2 TB/s 記憶體頻寬，較傳統 CPU 效能快 50%、記憶體頻寬提升一倍，功耗減半。黃仁勳說得直接：「AI 需要 CPU 來處理工具呼叫，Vera CPU 就是為這個場景精準設計的。」

要掌控完整的推論經濟，NVIDIA 必須同時掌握 CPU。

各家科技巨頭，在推論時代悄悄卡位

Vera CPU 的出現，折射出一個更大的產業現象：各大科技公司正在推論時代的版圖上，各自找到定位。

Google 的方向最鮮明。最新一代晶片 Ironwood（TPU v7）發表時，官方定位直接寫著：「首款專為推論時代設計的 TPU」。單顆晶片達到 4.6 PetaFLOPS 的 FP8 運算能力，擴展至 9,216 顆晶片時可達 42.5 ExaFLOPS，記憶體頻寬高達 7.2 TB/s，同時供 Google 內部 Gemini 模型及 Google Cloud 外部客戶使用。

Amazon 走的路徑相似。自研晶片 Trainium 2 在 2024 年底正式上市，Anthropic 在上面部署了近 100 萬顆晶片（含前代），處理 Claude 的訓練與推論，同類模型在 Amazon Bedrock 上的詞元（token，AI 語言模型的最小輸出單位）吞吐量，是競爭對手的三倍。接下來的 Trainium3，單顆運算效能達 2.52 PFLOPS，是 Trainium2 的兩倍；整套 UltraServer 系統的能源效率，則比前一代提升逾四倍

Microsoft 的 Maia 200 以台積電 3 奈米製程打造，搭載超過 1,400 億個電晶體，目前為 Microsoft 365 Copilot、Azure AI Foundry 及 OpenAI 的模型提供推論算力。

Amazon 和 Microsoft 的自研晶片全部只供自用，目標很清楚：把自家 AI 服務的推論算力，從 NVIDIA 的定價體系中解放出來。Google 的 TPU 歷來也是如此，但據《The Information》2 月下旬報導，Google 與 Meta 已簽署一筆數十億美元的晶片合作案。業界估算，其規劃是 2026 年先讓 Meta 透過 Google Cloud 租用 TPU，若 2027 年效能測試通過，Meta 再直接購買約 50 至 80 萬顆晶片，部署至自家資料中心。Google 和 Meta 雙方均未公開確認細節。若最終成真，將是 Google TPU 首度對外販售，也代表這場「自研晶片自用」的共識，已開始出現裂縫。

在開放市場上，AMD 是目前最具體的競爭者。MI300X 搭載 192GB HBM3 記憶體，是同期 NVIDIA H100 的兩倍有餘，讓部署大型模型時能用更少的晶片完成。Meta 目前 Llama 405B 的全部線上推論流量，就跑在 MI300X 上。

MI325X 進一步將記憶體擴充至 256GB，在高延遲容忍的推論場景表現尤為突出。AMD 的主要弱點仍在軟體生態，ROCm 與 CUDA 的開發者覆蓋率差距，使實際工作負載的硬體使用率，有時只達理論峰值的三分之一至三分之二。

Intel 則選擇明確退場。Gaudi 3 透過 Dell、HPE 等 OEM 廠商銷售，官方已明確表態不與 NVIDIA 正面競爭，鎖定對成本敏感的企業級推論市場。目前 Intel 在離散 AI 加速晶片市場的市佔率不到 1%。

NVIDIA 的回應：整合 Groq，鎖定完整推論技術棧

面對這些挑戰者，NVIDIA 的應對是擴張，把推論的完整技術棧都納入版圖。

Groq 的加入是最明顯的訊號。Groq 的處理器採用確定性資料流架構，靜態排程、每顆晶片搭載 500MB 的片上 SRAM，設計目標只有一個：高速詞元生成。弱點是記憶體容量有限，放不下大型模型的完整參數，難以單獨規模化。

NVIDIA 的解法是用推論排程軟體 Dynamo 將管線拆開。Vera Rubin 負責需要大量計算的前段工作，Groq 負責延遲最敏感的詞元生成。兩者緊密結合後，最高階推論層的每瓦詞元產出效率，較純 Vera Rubin 提升 35 倍。

黃仁勳用「詞元工廠」的概念說明這件事的意義。在一座功率固定的資料中心裡，每瓦特能生成多少詞元，決定了整座工廠的營收上限。Vera Rubin 加 Groq 的目標，就是把這個上限盡可能往上推。

壟斷時代落幕，生態多元化才剛開始

回頭看整個格局，每個玩家都在推論時代找到了自己的位置。三大雲端巨頭各守自家雲端壓低成本、AMD 主打大型模型的記憶體優勢、Intel 退守企業市場。多個專精方向的生態系，正在 NVIDIA 主導的版圖邊緣，各自生長。

NVIDIA 的護城河仍然厚實。CUDA 生態系二十年的積累、供應鏈的鎖定深度（截至今年一月，製造與供應承諾金額達 952 億美元），加上 Morgan Stanley 分析師 Joe Moore 觀察到的現象：客戶試用競品後，最終還是回到 NVIDIA。

護城河的深度，擋不住邊界的移動。AI 工作負載的重心從訓練轉向推論，需求結構改變了，競爭版圖也跟著移動。NVIDIA 意識到這一點，所以親自跨入 CPU 市場。往後幾年，「主導」這個詞對 NVIDIA 的意義，將與過去大不相同。

參考資料：NVIDIA Newsroom、NVIDIA、Google Blog、TechCrunch、TechCrunch2、 Microsoft Blog、SemiAnalysis、SemiWiki、The Wall Street Journal

責任編輯：Sisley

核稿編輯：Mia

加入 INSIDE 會員，獨享 INSIDE 科技趨勢電子報，點擊立刻成為會員！

延伸閱讀：

舊 GPU 為什麼不跌反漲？一個正在重塑 AI 競爭格局的反常現象
【NVIDIA GTC 2026】黃仁勳：推論時代來臨，全球對 AI 基礎設施需求將達 1 兆美元
【NVIDIA GTC 2026】推論時代來臨！NVIDIA 正式推出 Vera Rubin、Vera CPU 以及全新「推論加速器」

市場機遇

NodeAI實時價格 (GPU)

$0.03318

$0.03318$0.03318

+0.85%

USD

NodeAI (GPU) 實時價格圖表

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。