中國科技巨擘華為今 (12) 日在 2025 金融 AI 推理應用落地與發展論壇上正式發表 AI 推理創新技術 UCM(推理記憶資料管理器),並計劃下月正式開源 UCM。
什麼是 UCM?解決 AI 回應慢又貴的問題
想像一下,當你問 AI 問題時,它需要「思考」很久才回答,而且運算成本很高。UCM 就像給 AI 裝了一個「超強記憶系統」,讓它能更快回應、處理更長的對話,同時大幅降低成本。
華為副總裁周躍峰指出,目前 AI 推理面臨三大問題:「推不動」(輸入內容太長超出處理範圍)、「推得慢」(回應速度太慢)、「推得貴」(運算成本太高)。
UCM 透過「分層記憶」概念解決這些痛點,就像人腦會把常用資訊放在容易取得的地方,不常用的資訊存在深層記憶中。
KV Cache 技術突破 記憶容量從 GB 躍升至 PB 級
UCM 的核心是以 KV 快取 (KV Cache) 和記憶管理為中心的推理加速技術。KV 快取是 AI 模型在對話過程中儲存上下文資訊的關鍵技術,過去受限於高頻寬記憶體 (HBM) 容量,現在 UCM 能將 AI 的記憶容量提升百萬倍,從原本只能記住少量對話內容,擴展到可以記住海量的歷史資訊。
UCM 將 AI 推理系統的記憶分為三層:即時記憶資料放在 HBM 中、短期記憶資料放在 DRAM、長期記憶放在共享專業儲存中,透過智慧分級實現最佳效能。
三大技術突破 效能大幅提升
UCM 的核心技術包括三個部分:
- 推理引擎外掛程式:像萬用轉接頭,可以連接各種不同的 AI 系統
- 智慧快取管理:支援多級 KV 快取管理及創新加速演算法,自動決定哪些資料要放在哪個層級的記憶體中
- 高速存取適配器:提供高效能 KV 快取存取,加速資料讀取,減少等待時間
經測試驗證,華為宣稱 UCM 能帶來顯著改善包含:一,首次回應時間最高縮短 90%;二,系統處理量最大提升 22 倍;三,可處理內容長度增加 10 倍;四,Token(AI 理解和處理文字的最小單位)經濟性提升 2 倍以上
創新聯想演算法 讓 AI 越用越聰明
UCM 還導入受打字輸入法聯想啟發的新聯想演算法,就像手機的智慧輸入功能,會根據你平常的使用習慣預測你想說什麼,讓 AI 能一次輸出多個詞彙,而不用一個字一個字慢慢生成。這項技術讓 AI「存得越多推得越快」,比傳統預測加速效果更適合企業應用場景。
華為數據儲存產品線 AI 儲存首席架構師李國杰表示,相較於業界現有方案只有傳統 Prefix Cache 技術,UCM 提供更豐富、可靠且加速效果更好的演算法庫,能在各種場景下自動切換和適應。
瞄準 Agentic AI 時代 持續技術演進
UCM 著眼於未來 Agentic AI 時代的需求設計。除了今年發布的推理加速套件,華為還將持續建構面向 Agent 知識感知的多模態檢索加速能力,以及未來 Agent 原生記憶的管理和加速能力。
李國杰透露,UCM 從去年 6-7 月開始孵化,至今約一年時間,僅演算法方面就有百人級團隊投入,未來將面向 Agentic AI 做更深入演進。
開源計畫 推動產業發展
華為計劃 9 月在魔擎社區率先開源 UCM,隨後逐步貢獻給主流 AI 開發社區。華為強調,透過開放這項技術,希望與產業界共同建立更成熟的 AI 推理生態系統。
中國信通院專家指出,目前 AI 發展重心正從「訓練模型」轉向「實際應用推理」,而 KV 快取為核心的記憶體管理將是未來 AI 系統優化的關鍵技術。
UCM 的推出標誌著 AI 推理技術邁向新階段,不僅能讓 AI 回應更快、處理能力更強,也為 AI 技術在各行業的大規模應用奠定基礎。
新聞來源 (不包括新聞圖片): 鉅亨網