在去年底,人工智慧(AI)晶片圈出現一則震撼彈:推理晶片新創公司 Groq 宣布,與輝達達成一項「非獨家技術授權協議」。表面看來,這僅是一紙簡短公告,但後續揭露的細節,卻讓外界重新評估這筆交易的真正分量。
根據消息,Groq 創辦人暨執行長 Jonathan Ross、總裁 Sunny Madra,以及多名核心技術成員,將一併加入輝達,參與相關授權技術的推進與規模化。
雖然 Groq 名義上仍持續營運,但最具決定性的資產,即技術路線與靈魂人物,已實質轉移。
若只從形式判斷,這並非一樁收購;但從結果來看,它幾乎具備收購的所有關鍵要素。
這種做法被業界視為典型的「收購式招聘」,也是輝達近年愈發純熟的策略之一:在不觸碰監管紅線的情況下,將潛在競爭威脅納入自身體系。
更重要的是,這項布局出現在極為關鍵的時間點。AI 晶片競爭正快速從「訓練算力至上」轉向「推理效率決勝」。
輝達的 GPU 依舊牢牢主導訓練市場,但在推理端,AMD、雲端服務商自研 ASIC 以及各類客製化晶片正快速逼近,成本與供應鏈多元化已成為大型客戶最現實的考量。
Groq 的 LPU(Language Processing Unit)正是為推理而生,主打極低延遲與高度確定性的效能表現。
其創辦人 Jonathan Ross 曾是 Google 第一代 TPU 的首席架構師,被視為 TPU 背後的關鍵推手,Groq 自然不是一家能被忽視的公司。
與其說輝達「買下」了 Groq,不如說是在競爭真正白熱化之前,提前拆除了一道可能威脅自身根基的「城梯」。
從 Mellanox、未遂的 Arm,到如今的 Groq,輝達的策略從來不只是擴張,而是在層層加高防禦體系,試圖在訓練、推理、網路、軟體與生態等多條戰線上,構築難以繞過的高牆。
算力不是焦慮的根源
Groq 交易真正揭示的,並非輝達是否會推出「非 GPU」的 AI 晶片,而是其核心焦慮來源。
當輝達在訓練算力層面幾近壟斷,AI 產業的重心卻悄然轉向「如何以更低成本、更高確定性完成推理」。
Groq 的價值不在算力規模,而在其系統哲學。該公司強調確定性延遲、由編譯器全面掌控執行路徑,主張「推理不是單純的硬體問題,而是系統問題」。
這與 GPU 世界中長期存在的動態調度、非確定性執行形成鮮明對比。
Groq 的 LPU 採用靜態調度與固定資料路徑的「確定性設計」,並以 SRAM 為核心記憶體架構,而非 GPU 仰賴的外部 HBM。
這使其在部分場景中能實現極致低延遲。雖然 Groq 曾嘗試切入訓練市場,但受限於生態與工具鏈,最終在 2023 年明確轉向「推理即服務」。
2024 年,Groq 展示其在運行 Llama 2-70B 模型時,每秒可生成超過 300 個 Token,顯著超越主流 GPU 系統,迅速吸引金融交易、軍事資訊處理與即時語音字幕等對延遲高度敏感的用戶。
輝達的長期執念:集群控制權
在與 Groq 展開合作之前,輝達其實早已在另一條戰線上默默布局,而且這條主線,與晶片本身關係並不直接。
長期以來,產業習慣用作業系統的視角來理解算力生態,認為只要掌握 Linux 發行版或核心技術,就能左右整個計算世界。
然而進入 AI 時代後,這套邏輯正在失去效力。輝達顯然看得更遠,了解真正決定話語權的,不是單一節點跑什麼系統,而是誰能掌控整個叢集如何被管理與調度。
這正是輝達在 2022 年初出手收購 Bright Computing 的背景。這筆交易雖未公開金額,但 Bright Computing 在被收購前已完成兩輪融資,累計募資約 1,650 萬美元,其核心產品 Bright Cluster Manager(BCM)在全球已有超過 700 家用戶。
與許多新創工具不同,BCM 出身於傳統高效能運算(HPC)領域,最早服務的正是對穩定性、可預測性要求極高的超級電腦環境。
也因為這樣的出身背景,BCM 從一開始就不是為追逐潮流而生,而是長期聚焦在同一件事上:如何在超大規模叢集中,完成一致性的部署、監控、維護與排程。
隨著技術演進,BCM 也逐步擴展適用範圍,開始支援 Hadoop、Spark、OpenStack、Kubernetes 以及 VMware ESX 等對控制精度要求極高的分散式系統,從單一用途工具轉型為通用型叢集控制平台。
在被輝達納入麾下並更名為 Base Command Manager 之後,這套系統正式成為 AI Enterprise 軟體堆疊的一部分,扮演整個 AI 系統的「控制底盤」。
商業模式也隨之轉變,輝達不再只是出售硬體,而是開始以授權方式,按 GPU、按年度販售完整的系統能力。
AI Enterprise 授權涵蓋輝達在自家 GPU 加速系統上支援的函式庫、框架與工具,每顆 GPU 每年費用約 4,500 美元。
這個轉折點意義重大,因為它象徵輝達首次將「叢集管理能力」本身,納入可直接變現的核心資產,而非交由客戶或第三方自行處理。
在商業策略上,輝達也設計了一套看似開放、實則精準的機制:對於每個節點不超過 8 顆 GPU 的叢集,可免費使用 Base Command Manager,但不包含任何技術支援,且授權隨時可能被收回。
對企業而言,若要維持穩定且可長期運行的生產環境,最終仍須升級至 AI Enterprise。這種做法與其說是免費,不如說是一種高度策略化的「試用綁定」。
更關鍵的是,Base Command Manager 並非單獨運作。其上層還疊加了 Mission Control,用於自動化部署所謂的「AI 工廠」,將框架、模型、容器環境、健康檢測與功耗最佳化整合為一體。
Mission Control 內含以 Run:ai 為基礎的 Kubernetes 進行容器編排,結合 Docker 執行運算,同時支援 GPU 虛擬化,讓算力能以更細緻的粒度被分配與管理,並依照實際工作負載動態調整系統功耗。
這整套設計,並非為了給客戶更多選項,而是讓使用者在不經意間,就運行在輝達所定義的「最佳實務路徑」上。
也正是在這個脈絡下,輝達於 2024 年收購 Run:ai 的決策顯得順理成章。
Run:ai 的核心價值不在於多做了一個 Kubernetes 擴充,而是在於它將 GPU 資源徹底抽象化,實現多租戶管理、彈性排程、優先級控制與 GPU 虛擬化。
一顆實體 GPU 能被切分成多個虛擬實例,供不同任務同時使用,且兼顧效能與隔離性。
輝達選擇提前掌握 Run:ai,關鍵原因在於「調度權」。若這一層落入他人之手,CUDA 生態的優勢就可能被平台層消解。
雲端業者完全可以透過調度系統,讓客戶感知不到底層使用的是哪一家 GPU,甚至在其中混入自研晶片作為替代。
不過,在純裸機的 HPC 與 AI 工作負載管理領域,輝達仍需要一套成熟工具來維持系統穩定性。
實務上,Base Command Manager 承擔健康檢查與系統監控的角色,而實際的作業排程,則多半交由 Slurm 這類工作負載管理器來完成。
輝達並未強行推翻既有生態,而是選擇接受現實:在大量由 HPC 演進而來的 AI 叢集中,Slurm 仍是事實上的標準。
許多研究機構與計算中心並不希望導入全新工具,而是傾向沿用熟悉的系統,這在兼具 HPC 與 AI 任務的混合型中心尤為常見。
而這樣的現實,也為輝達下一步關鍵布局,提前鋪好了道路。
開源,並不等於放棄主導權
到了 2025 年 12 月,輝達終於補上這道防線中最關鍵的一塊拼圖:正式收購 SchedMD,取得 Slurm 工作負載管理器背後的核心研發團隊,以及企業級技術支援的主導權。
Slurm 的歷史可追溯至 2001 年,由勞倫斯.利佛摩國家實驗室,聯合 Linux Network、惠普與 Groupe Bull 共同開發。其設計理念,據稱受到超級電腦互連設備商 Quadrics 所推出 RMS 集群資源管理器的啟發。
2010 年,Slurm 的兩位核心開發者 Morris Jette 與 Danny Auble 成立 SchedMD,專注於為 Slurm 提供商業化支援,藉此為專案的長期發展提供穩定資金來源。
Slurm 能在眾多工作負載管理器中脫穎而出,關鍵在於其壓倒性的市占率。過去十年間,Top500 超級電腦排行榜中,約六成系統選擇 Slurm 作為作業調度核心,明顯超越 IBM LSF、Altair PBS、Adaptive Computing 的 Maui 與 Moab,以及 Sun/Univa Grid Engine 等競爭方案。
這類調度系統的本質,都是將不同資源需求的工作負載進行高度精細化的排程,確保依優先順序有效執行,而 Slurm 正是在穩定性與可預期性上贏得信任。
Slurm 成為超級計算領域的事實標準,並非因其功能最激進,而是因為它長期維持中立、可靠,並能持續適配快速演進的硬體架構。
多年來,SchedMD 已為全球數百家高效能計算中心、雲端服務商、超大型資料中心與企業客戶提供 Slurm 的商業支援服務,而輝達與 SchedMD 之間,也早已累積超過十年的合作關係。
事實上,在輝達收購 Bright Computing 之前,Bright Cluster Manager 原本支援多種工作負載管理器;但隨著 Slurm 在 HPC 乃至 AI 領域逐漸成為實際標準,它最終被選為 BCM 的預設選項,並一路延續至輝達整合後的 Base Command Manager,成為其核心調度基礎。
對輝達而言,真正的風險從來不在於 Slurm 是否開源,而在於這個「地基層」若掌握在自己掌控之外,整個 Base Command Manager 與 Mission Control 架構,將留下無法完全掌握的核心節點。
一旦調度系統的演進方向與企業級支援權不在手中,上層整合再完整,也難以真正封閉生態。
因此,輝達在收購 SchedMD 後,並未試圖改變 Slurm 的開源性,反而多次對外強調其「廠商中立」立場,承諾持續推動 Slurm 作為開源、跨平台的工作負載管理器,服務更廣泛的 HPC 與 AI 社群。
但現實是,開源從來不代表沒有權力結構。誰負責主線程式碼的維護、誰提供企業級支援、誰決定新功能的優先順序,這些影響力,遠比授權條款本身來得關鍵。
輝達已表態將延續對 SchedMD 既有客戶的支援,外界普遍預期,這將透過吸收原團隊成員來完成。
然而,即便 Slurm 本身持續開源,也不意味輝達必須對開源版本提供完整支援,更不代表所有未來功能都會以開源形式釋出。
考慮到輝達在驅動程式、框架與演算法上長期採取的專有策略,這種「開源核心+專有整合」的模式,很可能同樣延伸至 Slurm。
輝達顯然試圖在兩者之間取得平衡:一方面,維持 Slurm 在 CPU 與非輝達加速器環境中的廣泛適用性,以避免社群反彈;另一方面,將商業支援、系統整合與 AI 導向的功能演進,牢牢綁定至自家的 AI Enterprise 體系。
這是一種高層次的控制策略,不透過封閉程式碼壟斷市場,而是藉由系統複雜度與服務整合,建立實質門檻。
目前仍有待觀察的是,Run:ai 與 Slurm 將如何在 Base Command Manager 架構下進一步整合,為 HPC 與 AI 叢集提供一套由上而下的管理體系。
這套系統不僅必須涵蓋 AI 工作負載,也得同時兼顧仍大量存在的純 CPU 節點與非輝達加速器環境。
理論上,若輝達嘗試對 Slurm 設下任何限制,社群仍可依據 GNU GPL v2.0 授權 fork 原始碼並自行發展。
但現實往往更殘酷:分支程式碼不難,真正困難的是建立可長期運作的支援體系與企業信任。當所有人都使用同一套開源工具,卻只有輝達能提供最佳整合與完整解決方案時,開源反而成了其生態擴張的助力。
這樣的策略也反映在商業動作上。2024 年 10 月,輝達已停止單獨販售 Bright Cluster Manager,僅將其納入 AI Enterprise Stack 提供。
雖然外界尚不清楚整體價格是否出現變化,也難以判斷有多少客戶曾在純 CPU 或非輝達加速器環境中使用過這項工具,但訊號已十分明確:輝達正將所有系統元件打包為一個不可拆解的整體。
也正是在此背景下,Run:ai、Slurm 與 Base Command Manager 之間的關係變得格外關鍵。前者代表雲原生與容器化的未來,後者承載 HPC 的傳統脈絡,而輝達的目標,正是讓這兩個世界在自家框架內完成融合,而非各自為政。
輝達生態城牆已然成型
如果把 Groq、Bright Computing、Run:ai 與 SchedMD 這幾起收購放進同一條時間軸來觀察,就會發現輝達近年的佈局其實高度一致:其真正想拿回來的,並不是更多硬體,而是 AI 計算體系中長期游離在 GPU 之外的關鍵控制權。
GPU 依然是輝達最具競爭力的核心資產,但在 AI 進入大規模部署與基礎設施化階段後,單靠晶片性能已不足以形成長期優勢。
真正穩固的新防線,來自於對整個 AI 計算流程的重新掌控,而這條防線大致可以拆解為三個層次。
第一,是算力資源如何被組織與調度的主導權。從早期收購 Mellanox,將高速網路互聯納入體系,到引入 Bright Computing 的叢集管理能力,再補上 SchedMD 所代表的 Slurm 作業排程,輝達逐步掌控了算力如何互相連結、如何分配資源,以及任務如何排隊執行。
這不只是把零散元件拼在一起,而是重新定義了資料中心中「網路與調度」的角色,使其成為 AI 系統的內建核心,而非可替換的外部配件。
第二,是 AI 工作負載實際執行方式的定義權。Run:ai 提供的 GPU 虛擬化與資源抽象,搭配 Mission Control 的自動化部署與健康監控,再加上 Slurm 的作業調度機制,等於共同規範了任務應該如何啟動、在哪裡運行,以及需要多少算力。
當這套執行邏輯由輝達主導時,即便企業在理論上仍可選擇其他硬體方案,實務上卻會因為流程、工具與配置高度綁定,而面臨極高的轉換成本。
第三,則是對企業級支援與系統複雜度的掌握。透過 AI Enterprise 授權模式,輝達不再單獨銷售某一項工具,而是將整套軟體、管理與最佳化經驗打包成商業化服務。
客戶真正購買的,是一套能被長期維運、持續優化的整合系統。程式碼或許可以複製、改寫、再利用,但企業級支援、效能調校經驗與實戰方法論,卻牢牢掌握在原廠手中。
當這三個層次逐一到位後,市場上便出現一個關鍵變化:客戶「不是不能換」,而是「不值得換」。理論上的硬體選擇權,會在現實的遷移成本與學習曲線面前迅速失去吸引力。
這也標誌著輝達商業模式的根本轉變。過去,GPU 是獨立產品,交易在出貨那一刻完成;如今,GPU 更像是一把鑰匙,是客戶進入輝達 AI 生態系的起點。這
些收購並非追求規模,而是精準補齊 AI 計算鏈條中尚未完全掌控的環節。
因此,輝達正在打造的,已不再是傳統意義上的技術護城河,而是一道由系統整合構成的生態高牆。它不是靠封鎖對手,而是讓「離開」這個選項在商業上變得不合算。
當 AI 正式成為基礎設施,這種優勢往往比單一世代的硬體性能更持久。
從 Groq 到 SchedMD,從推理架構到工作負載管理,從晶片到整個系統層級,輝達在短短幾年間完成了一次少見的生態整合工程。
這道城牆的高度,已經無法單靠 FLOPS 或製程節點衡量,而是體現在遷移成本、組織學習曲線與生態黏著度之中。
當市場仍聚焦於「誰能在 GPU 上挑戰輝達」時,輝達關心的問題早已不同,它思考的是,如何讓「挑戰輝達」這件事,本身逐漸失去現實意義。
新聞來源 (不包括新聞圖片): 鉅亨網