繼現象級的ChatGPT之后,最近幾天我們再一次被人工智能刷屏,各大科技公司大招頻出,可謂神仙打架,吃瓜群眾們紛紛拍板叫絕。
先有NVIDIA發布了可于本地端運行的AI模型Chat with RTX,緊接著谷歌突然發布了最高可支持10,000K Token上下文(GPT-4 Turbo只能處理128k Token)的新一代多模態大模型Gemini 1.5 Pro,最后來自OpenAI的人工智能文生視頻大模型Sora更是技驚四座,震驚了整個科技圈。
Sora擁有三大突出亮點:
1、60秒長視頻,Sora可以保持視頻主體與背景的高度流暢性與穩定性。
2、單視頻多角度鏡頭,Sora在一個視頻內實現多角度鏡頭,分鏡切換符合邏輯且十分流暢。
3、理解真實世界的能力,Sora對于光影反射、運動方式、鏡頭移動等細節處理得十分優秀,極大地提升了真實感。
其實,視頻生成AI并不是新技術,目前市場上已有大量應用,包括基于文本的視頻生成AI——Gen-2、Pika、Imagen Video;基于圖像的視頻生成AI——Genmo、PixVerse、D-ID。誠然,Sora能夠生成高流暢度,高分辨率,逼真自然的視頻,但僅憑此絕不足以稱為對人工智能技術的顛覆。那么,Sora的顛覆性到底在哪呢?
Sora能夠生成非常逼真的視頻,關鍵在于其極高的自然語言理解能力和可以模擬各種各樣的物理現象和角色行為,例如火焰、水流、物體碰撞和角色運動等。對真實世界規則的理解、重構和模擬,才是Sora真正的顛覆性所在。
Sora采用了以Transformer為骨架的Diffusion Model(擴散模型),通過分析視頻來捕捉現實世界的動態變化,并利用計算機視覺技術重現這些變化,創造新的視覺內容。它的學習不限于視頻的畫面和像素,還包括視頻中展示的物理規律。
一直以來,機器與真實世界交互的都成本非常高,科學家希望能夠在虛擬世界中建立一個與現實世界物理規則相同的模型,方便機器"試錯"。這也是Sore的目標,成為"世界模擬器"。
盡管Sora距離世界模型還有很長距離,但它證明了一點,即機器可以通過"投喂數據"推算出一些物理世界的規則。毫無疑問,它是機器模擬現實世界的一個里程碑。
但是,從ChatGPT到Sora,OpenAI一直都延續著自回歸生成式路線(Auto-regressive models),遵循"大數據、大模型、大算力"的暴力美學,而這也對意味著其對后端算力支撐提出了極高挑戰。
見微知著,算力永遠是人工智能探索道路上無法回避的問題。對于物理世界的學習和觀察能力所需的算力遠超文本,這也加劇了算力的緊缺。進行強大、穩定的算力建設,實現高效算力升級,是助力人工智能科研實現創新突破的關鍵所在。
超集信息作為我國高性能計算解決方案優秀提供商,憑借堅實的技術積累和強大的研發及交付能力,為大量人工智能科研企業及團隊提供了強大的算力支撐,持續賦能著科技創新。
面對人工智能技術創新及產業升級下日益高漲的算力需求和算力芯片迭代升級下前所未有的解熱及能耗挑戰,超集信息為您推薦擁有更高算力密度部署、更強設備散熱能力、更省改造建設成本、更優能耗使用效率、更快液冷改造速度的LiquidMax智能液冷數據中心解決方案,可助力客戶實現更強大、更穩定、更綠色算力的高效建設,為人工智能科研創新提供強有力的算力保障。
總體而言,雖然就Sora目前整體表現來看,并不意味著它已經真正"讀懂"了物理規律,但其在視頻生成和模擬真實世界互動方面的表現已經十分出色,已然實現了大模型對真實世界理解和模擬的重大突破。在通向AGI的漫長道路上,超集信息將持續為大家提供高效算力保障,讓我們一起期待"世界模型"在不遠將來的真正降臨。