美國當地時間3月18日下午,全球矚目的NVIDIA GTC 2024正式開幕,黃仁勛化身"泰勒·斯威夫特"引爆全場,發布了較NVIDIA H100 GPU擁有5倍性能提升的NVIDIA B200 GPU以及30倍LLM推理加速的NVIDIA GB200超級芯片。
全新架構,性能再升級
NVIDIA B200 GPU
"Hopper很棒,但我們需要更大的GPU",伴隨著黃仁勛的演講,基于全新Blackwell架構的最新一代AI芯片——NVIDIA B200 GPU正式亮相。
左:B200,右:H100
NVIDIA B200 GPU采用4納米(4NP)工藝蝕刻而成,整合了兩個獨立制造的裸晶(Die),并由10TB/s帶寬連接,共有2080億個晶體管,提供高達20 petaflops的FP4八精度浮點運算能力。
相比之下,NVIDIA H100 GPU的晶體管數量為800億個,提供4 petaflops的FP4八精度浮點運算能力,NVIDIA B200 GPU直接實現了5倍性能提升,實現了又一次重大突破。
最強合體,超級芯片誕生
NVIDIA GB200
NVIDIA B200 GPU帶給我們的震撼還未消散,黃仁勛又放大招,為我們帶來了結合2個NVIDIA B200 GPU和1個Grace CPU,由900GB/s超低功耗NVLink芯片連接的超級芯片——NVIDIA GB200,讓AI公司能夠訓練更大、更復雜的模型。
過去,訓練一個擁有1.8萬億參數的模型需要8000個Hopper GPU 和15兆瓦的功耗;如今,同樣的工作只需要2000個Blackwell GPU就能完成,功耗僅為4兆瓦。并且,取決于各種Blackwell設備的內存容量和帶寬配置,工作負載的實際性能可能會更高。
相比于NVIDIA H100 GPU,NVIDIA GB200不僅可以帶來30倍LLM推理加速,更可是將成本和能源消耗降低至1/25。在GPT-3(1750億參數)大模型基準測試中,GB200的性能是H100的7倍,訓練速度是H100的4倍。
整柜封裝,快速交付及部署
GB 200 NVL72
面向超大型算力需求的企業,NVIDIA還推出了整體封裝設計的NVIDIA GB200 NVL72整柜解決方案,可實現快速交付與便捷部署。
黃仁勛于現場表示:"一個GB200 NVL72機柜可以訓練27萬億參數的模型。"目前為大家熟知的GPT-4參數規模為1.8萬億,而一個NVIDIA GB200 NVL72機柜便可完成近15個GPT-4規模模型的訓練。
NVIDIA GB200 NVL72將36個Grace CPU和72個Blackwell GPU集成到一個液冷機柜中,擁有30TB高速內存,可實現總計720 petaflops的AI訓練性能,或1,440 petaflops(1.4 exaflops)的推理性能。
柜內搭載的18個Blackwell計算節點(每個計算節點由兩個GB200超級芯片組成)由NVIDIA Quantum-X800 InfiniBand和Spectrum™-X800以太網平臺連接,支持高達800Gb/s的網絡。
大會現場,黃仁勛還自豪地曬出了AI芯片技術的發展圖,并表示:"在過去,計算能力平均每十年性能提升100倍。而在過去的八年中,NVIDIA已經將性能提升了1000倍。"
但算力升級同時,關鍵芯片及相關零部件功耗不斷攀升,此次全新發布的NVIDIA B200 GPU功耗更達到了前所未有的1000W,已突破傳統風冷散熱的解熱極限。面對前所未有的散熱挑戰,NVIDIA GB200 NVL72整柜解決方案及DGX GB200 SuperPod解決方案均采用新型高效液冷散熱架構。液冷散熱技術,已成為未來算力建設的必然趨勢。
蘇州超集信息科技有限公司作為NVIDIA NPN Partner,一直以來都致力于液冷計算領域的專業技術研發,并已實現服務器液冷計算技術的難點攻克,具備從液冷部件到液冷整機、液冷整柜到智能液冷數據中心集群的研發、設計、部署、實施、售后的能力,能夠以更高效、更穩定、更綠色的高性能計算及人工智能解決方案,助力多場景用戶完成高效算力升級。
超集信息針對目前傳統數據中心建設和運營中能耗效率低,散熱效率低,算力密度低等痛點進行專項優化,完成了LiquidMax智能液冷數據中心解決方案的研發及應用,能夠以更高算力密度部署、更強設備散熱能力、更低改造建設成本、更優能耗使用效率、更快液冷改造速度助力用戶實現高效算力升級。