英偉達業(yè)務(wù)擴充的信號變得明顯。本屆GTC大會上,英偉達發(fā)布的產(chǎn)品涵蓋了數(shù)據(jù)中心加速器、機架、網(wǎng)絡(luò)產(chǎn)品和多款開源模型。CUDA、GPU、LPU(語言處理單元)、AI工廠、機器人、自動駕駛、開源模型等關(guān)鍵詞在英偉達CEO黃仁勛的演講中被頻頻提及。這家以GPU聞名的公司,如今將其定義為一家包攬AI基礎(chǔ)設(shè)施或AI工廠多個環(huán)節(jié)的廠商似乎更加合適。
即便只是在數(shù)據(jù)中心加速器這一環(huán)節(jié),英偉達的產(chǎn)品類型也變得多樣。Rubin平臺在GPU之外,一款LPU也加入進來。原屬于專用集成電路(ASIC)的LPU與通用的GPU站在不同陣營,但英偉達拿下Groq的授權(quán)后,開啟了兩種芯片的聯(lián)合。
而在以大型云廠商為客戶的60%業(yè)務(wù)之外,看起來更為龐雜的40%業(yè)務(wù)中,英偉達也落下新子。物理AI中的自動駕駛和機器人成為兩個重要抓手。為了部署物理AI,英偉達不僅做硬件,還做自動駕駛平臺和模型。
要理解今天的英偉達可能比以往更不容易,但這家牽動著諸多AI領(lǐng)域發(fā)展的公司到底在如何勾勒AI的未來,仍是值得探究的問題。GTC大會期間,第一財經(jīng)記者與英偉達超大規(guī)模和高性能計算副總裁Ian Buck、Omniverse與仿真技術(shù)副總裁Rev Lebaredian分別進行了一場對話,試圖解讀英偉達做一些產(chǎn)品的思路和考慮,探討了芯片的異構(gòu)化現(xiàn)象、英偉達為物理AI鋪設(shè)的棋局,以及為何機器人的“ChatGPT時刻”正在到來。

為何GPU仍占主導(dǎo)
以Groq的技術(shù)為基礎(chǔ),英偉達本屆GTC推出了LPU芯片Groq 3和Groq 3 LPX 機架。據(jù)介紹,Groq 3 LPX與Rubin CPU和GPU一起使用可將每兆瓦推理吞吐量提高35倍,Groq 3 LPX將在今年下半年集成到下一代Vera Rubin AI工廠中。
Groq 3的加入,讓GPU不再是英偉達數(shù)據(jù)中心加速器的唯一形態(tài)。此前,GPU陣營如何面對ASIC陣營的挑戰(zhàn),便是一個討論多時的話題。英偉達去年底與Groq達成知識產(chǎn)權(quán)非獨家協(xié)議,并將Groq創(chuàng)始人JonathanRoss、總裁SunnyMadra及其他核心團隊成員收入麾下,也被解讀為應(yīng)對市場挑戰(zhàn)的一種做法。低延遲推理是Groq LPU的特點。將LPU納入產(chǎn)品組合,英偉達是想做什么?
按照黃仁勛的解釋,每個來自不同規(guī)模模型的token都有所差別,對今天主要的token生產(chǎn)需求,Rubin還是一個重要承載,但有新的細分市場出現(xiàn)。模型在變大,上下文在變長,意味著推理速度要變得很快,結(jié)合新的芯片組合能讓計算滿足各種需求。
Ian Buck作出了他的解釋。他告訴記者,Groq 3 LPU可以視為Rubin的“增強包”。LPU具備驚人的快速SRAM內(nèi)存,能快速進行浮點計算。但它同時存在限制,如果僅用LPU來運行萬億參數(shù)模型,可能需要幾十個機架,難以實現(xiàn)規(guī)模化,成本太高且基礎(chǔ)設(shè)施效率太低。但如果通過一個LPX機架,讓LPU與Rubin機架協(xié)同工作,則能結(jié)合兩種芯片的特性,讓所有注意力計算得以在GPU上完成、所有專家模型矩陣數(shù)學(xué)運算得以在LPU上完成。

英偉達超大規(guī)模和高性能計算副總裁Ian Buck
“對當前這一代聊天機器人或推薦系統(tǒng),絕大多數(shù)AI市場將繼續(xù)由Rubin服務(wù),LPU不會替代這些場景。但對于下一代智能體工作負載而言,在萬億參數(shù)模型、數(shù)十萬token上下文、速度每秒數(shù)千token的情況下,兩種芯片的結(jié)合成為可能。” Ian Buck表示。
近期在數(shù)據(jù)中心中嘗試不同芯片的不止英偉達一家。同為GPU廠商,AMD2月底與Meta達成的合作中包含一項特殊內(nèi)容,即雙方合作設(shè)計半定制芯片。本月早些時候,蘇姿豐解釋稱,AI基礎(chǔ)設(shè)施變得復(fù)雜,有多種工作負載,無論是訓(xùn)練還是推理、大模型還是小模型,都需要不同類型的計算,“在AI基礎(chǔ)設(shè)施的下一階段,沒有一塊單一的芯片能把所有事情做到最好,這已經(jīng)是一個異構(gòu)的世界。人們也需要考慮每瓦特算力的價格,希望大量運行AI工作負載時盡可能高效。計算需求中總會有ASIC的一席之地。”關(guān)于算力成本和AI工作負載多元化,蘇姿豐的想法與黃仁勛的闡述不謀而合。
但隨著芯片邁向異構(gòu)化,ASIC是否將會越來越多地應(yīng)用,并挑戰(zhàn)具備可編程、通用性的GPU的地位?特別是當一些適應(yīng)某種特定工作負載的ASIC產(chǎn)品具備速度和成本優(yōu)勢時。
在Ian Buck看來,這是關(guān)于如何平衡特定計算需求和平臺可編程創(chuàng)新性的問題,關(guān)乎廠商愿意在多大程度上作出特定化設(shè)計。“我們可以單獨為GPT-OSS做款A(yù)SIC芯片,在極端的環(huán)境下是可以拿著模型做芯片的。我確信這么做會有效率。但這個模型及其實現(xiàn)的方式將永遠固化在硅片中,剝奪了世界上所有進一步優(yōu)化它的方法,包括軟件優(yōu)化,讓GPT-OSS無法被做得更快、更智能或進一步擴展。”他表示。
Ian Buck告訴記者,DeepSeek-R1一年前發(fā)布,此后模型效率越來越高,原因是全世界都學(xué)習(xí)了新的方法并讓混合專家模型在GPU上跑得更高效,“之所以成為可能,是因為這些芯片都開放、可配置,人們找到執(zhí)行混合專家模型的新方法,例如張量并行、寬專家并行、流水線并行,并從FP16邁向FP8、FP4。是平臺的可編程性給了性能提升X倍的可能性,讓人們能用通用GPU運行得更快并降低成本、增加收入。”
Ian Buck告訴記者一個案例:英偉達的400名軟件工程師曾花約4個月時間,進行120萬小時的GPU模擬運行,讓DeepSeek-R1運行得更快。工程師找到了38種軟件優(yōu)化的方式,讓DeepSeek-R1在同樣GPU上運行的性能提升了4倍,也就是說,只通過軟件優(yōu)化就能讓DeepSeek產(chǎn)生的效益增加4倍。
“我們可以針對不同工作負載做得非常特定化,甚至把模型硬編碼在芯片上,但這樣會錯過構(gòu)建新算法和新技術(shù)的機會。而我們發(fā)現(xiàn),(如果基于可編程性平臺)95%的優(yōu)化和技術(shù)將適用于生態(tài)系統(tǒng)中的每個模型,幫助下一個模型變得更智能。”Ian Buck告訴記者。
就Groq是否也會納入CUDA生態(tài)內(nèi),Ian Buck表示,雖然第一代的LPU還不行,但打算后續(xù)開放LPU的編程環(huán)境,后續(xù)將會討論要通過CUDA還是其他方式來開放。

為物理AI打基礎(chǔ)
英偉達在本屆GTC中釋放了不少物理AI方面的消息。機器人方面,此次英偉達推出Isaac仿真框架、Cosmos和Isaac GROOT開源模型,供行業(yè)開發(fā)、訓(xùn)練和部署機器人,其中Cosmos 3是首個統(tǒng)一合成世界生成、物理 AI 推理和動作模擬的世界基礎(chǔ)模型。自動駕駛方面,英偉達推出推理 VLA 模型(視覺動作語言)Alpamayo 1.5,用于增強自動駕駛汽車推理能力。
英偉達在物理AI領(lǐng)域不再只提供算力硬件,而是做了越來越多軟件方面的部署,包括深入模型層面并開源模型。
Rev Lebaredian告訴記者,就目前而言,開源比任何時候都重要,英偉達在開源研究和開源技術(shù)方面做了大量投入,特別是針對物理AI,因為無法由一家公司獨自完成物理AI的構(gòu)建。要讓機器人的ChatGPT時刻到來,就必須要由大家一起貢獻。而由于英偉達處于“AI的中心”,是生態(tài)中每個人的連接者,因此相關(guān)的工作要從英偉達開始。
就深入基礎(chǔ)性的世界模型開發(fā)的原因,Rev Lebaredian向記者解釋,大語言模型可以從互聯(lián)網(wǎng)上獲取語言,由AI計算機找出語言的模式,然后人們最終得到智能。英偉達正在用世界基礎(chǔ)模型做類似的事。

英偉達Omniverse與仿真技術(shù)副總裁Rev Lebaredian
“世界基礎(chǔ)模型學(xué)習(xí)世界的方式是基于物理定律而非語言規(guī)律。Cosmos開源,能讓任何公司在計算機中運行并用于各種用途,除了模型,英偉達還提供創(chuàng)建模型所需的數(shù)據(jù)和框架、藍圖。” Rev Lebaredian表示,之所以這么做,是因為目前距離物理AI、機器人的完成態(tài)還很遠,需要開源力量推動。目前很多世界模型廠商都將Cosmos用于訓(xùn)練、評估模型,讓AI成為另一個AI的老師。
就物理AI不同領(lǐng)域的發(fā)展階段,Rev Lebaredian則表示,對自動駕駛汽車來說,挑戰(zhàn)已經(jīng)從科學(xué)領(lǐng)域轉(zhuǎn)入工程領(lǐng)域,只是擴大規(guī)模、探索如何讓越來越多汽車上路行駛的問題。但對通用機器人而言情況截然不同,通用機器人的挑戰(zhàn)出現(xiàn)在每個維度上,例如目前仍沒有很好的機器人身體,沒有很好的手,物理部分仍需在傳感器、驅(qū)動機、電機和電池方面改進。
Rev Lebaredian表示,現(xiàn)在的情況是,即便建造了完美的機器人身體,機器人也不會用,還需要太多工程師花太多時間來編程機器人,讓機器人做一件簡單的事。現(xiàn)在業(yè)界正處于一個非常的時刻,開始有足夠的技術(shù)讓機器人大腦變得有用,即將跨過這個重要門檻,現(xiàn)在能看到機器人的ChatGPT時刻正在到來。現(xiàn)在技術(shù)和應(yīng)用之間的連接已經(jīng)在發(fā)生,例如利用推理能力可以讓Cosmos中的智能體生成所需數(shù)據(jù),用來訓(xùn)練機器人。