普通用戶僅需輸入一句文字,便能夠直接生成一段媲美好萊塢畫面的精彩視頻,隨著Sora、Gen-2、Pika等視頻生成類AI工具的橫空出世,AI視頻已進入大規模應用前夜。但節節攀升的算力需求也接踵而至,我們不僅面臨研發時模型訓練和應用時"文本-視頻"數據邏輯配對的AI算力挑戰,還需搭建視頻渲染生成時的圖像處理算力。
視頻生成時的算力需求遠超過文本及單一圖像。生成一個最基本的普通流暢視頻,動態完整呈現下需保證每秒至少達到30幀,也就是一秒鐘的視頻就需要30個圖像畫面加以支撐。從圖片到視頻,算力增量達到了幾十倍。
目前Sora可以生成最多60秒的視頻,這就對應到了1800個畫面,同時還面臨大量復雜的3D場景建模,實時光影變化等挑戰,算力要求的苛刻程度可見一斑。
為更好應對視頻生成類AI日趨"逼真"的技術倒逼,在此為您推薦一款專業面向視覺運算工作的高性能寶藏GPU——NVIDIA L40。
在畫面生成的圖形計算中,圖形渲染、計算著色器和其他圖形相關任務主要由CUDA core負責,RT core對光線和聲音進行高速渲染,Tensor core則專注于提高動態圖形分辨率和光線追蹤性能。NVIDIA L40擁有18,176個CUDA core,568個Tensor core,142個RT core,能夠輕松應對復雜圖像及場景的渲染任務。
當視頻場景中包含大量復雜的3D模型時,我們便需保證有足夠的顯存空間用于存儲模型數據和紋理信息,同時渲染圖像分辨率及抗鋸齒級別、陰影質量、光線數量、折射材質等參數的提升,也將大幅增加顯存空間占用。當顯存不足時,視頻的整體渲染速度將面臨大幅降低。NVIDIA L40單卡顯存達48 GB,無懼視頻越來越逼真下的顯存挑戰。
在渲染復雜圖像和視頻時,具備高顯存帶寬的GPU能夠實現計算芯片與顯存之間更快的數據傳輸,直接影響視頻渲染的整體效率。NVIDIA L40采用GDDR6內存,顯存帶寬達到了864 GB/s,數據的高速傳輸有效保證了視頻的整體渲染效率。
并且,NVIDIA L40支持材質的加速光線追蹤和路徑追蹤渲染,能夠助力視頻生成AI實現物理屬性的準確仿真,帶來更加逼真的畫面呈現。
目前,雖然Sora在模擬基本物理交互時仍存在許多局限性,但其帶領著"文生視頻"類AI向前邁進了至關重要的一步,向我們證實了繼續擴展視頻模型是開發物理和數字世界模擬的有徑之途。我們相信,在強大AI硬件的支撐下,能夠深度理解和模擬真實世界的"世界模型"必將與我們相見。