科技日報記者 羅云鵬
在人工智能浪潮席卷全球的當下,算力已成為核心驅動力。然而,一個長期存在的困境是:先進的AI模型與算法,往往被束縛在特定的硬件生態之上,其中尤以英偉達的CUDA生態為甚。“天下苦CUDA久矣”,不僅是開發者面對跨平臺遷移時高昂成本與復雜性的慨嘆,更是中國AI產業在追求算力自主道路上必須直面的現實壁壘。
在深圳,一款名為KernelCAT的AI智能體工具進入業界視野,希望以人工智能本身的力量,來破解這一生態難題。近日,科技日報記者專訪深圳市大數據研究院及其孵化的智子芯元(深圳)科技有限公司(以下簡稱“智子芯元”),探尋這把“破局之劍”背后的邏輯與潛力。
算子開發“三高”難題有了新解法
KernelCAT由智子芯元研發,其核心定位為高度智能化的“計算加速專家”。作為基于大模型構建、具備深度領域知識的智能體框架,其并非傳統的編程工具或簡單的代碼生成器。
“我們的目標是讓它成為隨時可指揮、可協作、可信賴的專家,從人類手中接管底層工程的復雜性。”深圳市大數據研究院研究科學家、智子芯元聯合創始人丁添介紹,開發者無需精通艱深的硬件架構與底層優化技術,只需通過自然語言描述需求,KernelCAT便能自主完成從理解、分析到編碼、驗證的全流程。
具體而言,KernelCAT瞄準AI落地中最耗時耗力的底層工程環節,核心功能覆蓋三大場景。其中,算子開發是為模型創造新的計算單元,在模型遷移適配中能讓模型在新硬件上快速跑起來、性能調優則支撐模型跑得更快。傳統需要數天甚至數周的手工工作,可被壓縮至小時乃至分鐘級別。
“大模型由無數運算組成,算子(Kernel)是最基礎的數學運算單元,算子的效率直接決定大模型推理/訓練速度。”深圳市大數據研究院副院長張昕介紹,DeepSeek系在英偉達系統上訓練,要搬到華為昇騰平臺,算子就起了“翻譯官”的作用。
然而,算子開發長期面臨“三高”挑戰:門檻高,需融合算法、硬件、編譯等多領域知識;成本高,新硬件、新模型意味著推倒重來;周期長,手工開發動輒數周,追趕不上技術迭代速度。
這正是CUDA生態難以撼動的根源。英偉達用十五年構建了包含完善工具鏈、豐富算子庫和龐大開發者社區的體系,形成了強大的生態鎖定效應。
KernelCAT的破題思路,在于將“專家經驗”轉化為“AI可復用的智能”。它并非讓大模型盲目試錯,而是創新性地結合了“大模型的智能”與“運籌優化算法”。
丁添以優化華為昇騰芯片上的FlashAttentionScore算子為例介紹,KernelCAT首先理解算子的計算邏輯與硬件約束,將調優問題自動轉化為一個運籌學數學模型;隨后,運籌優化算法在龐大的參數空間中系統、高效地搜索最優解。最終,在無須人工干預的情況下,實現延遲降低最高22%、吞吐量提升近30%的效果。
“這標志著算子調優從傳統的經驗驅動,走向了算法驅動。”丁添說。
以AI之智破CUDA之壁
理論需要實踐檢驗。在此前DeepSeek-OCR-2大模型遷移至華為昇騰平臺的案例中,KernelCAT自動解決了復雜的版本依賴與環境配置難題,并精準識別出模型對CUDA專屬算子的依賴,自動替換為昇騰原生實現,徹底剝離CUDA,并在完成遷移適配后,相比初始方案實現了35倍的推理加速。
丁添認為,KernelCAT是生態遷移的加速器。它通過自然語言交互極大降低門檻,接管了跨平臺適配的復雜度,使得向國產芯片的遷移不再是一項令人望而卻步的巨型工程。
近期,DeepSeek模型通過算法與算子優化取得突破,引發行業關注。“這也代表著算力優勢并非絕對,算法與軟件優化能夠對沖硬件堆砌,甚至突破生態壁壘。”丁添說。
時下,算力主權已成為國家安全的重要維度。硬件層面管制的背后,軟件與生態自主的緊迫性更加凸顯。
“技術自主可控可快速補全國產芯片的軟件能力,打破‘有芯片無生態’困局。”丁添表示,筑牢產業安全底線可確保關鍵領域模型遷移與優化不受制于人、掌握生態競爭主動權則能通過智能工具降低生態建設門檻,加速形成軟硬協同的國產AI生態正循環。
盡管潛力巨大,但丁添認為,KernelCAT未來面臨模型快速迭代的跟進壓力、企業級用戶對AI生成代碼的信任建立,以及商業化路徑探索等挑戰。更重要的是,算子優化的天花板終究受限于硬件本身的能力,需要與芯片廠商深度協同。
“KernelCAT是破局的利器,但一棵樹撐不起一片森林。”丁添表示,“建設一個成熟的、可與CUDA抗衡的國產AI生態,是系統工程。需要硬件持續迭代,開源社區繁榮,人才培養體系完善,政策與資本支持多方形成合力。”
(受訪單位供圖)

網友評論