5月31日,超集信息聯(lián)合CCF計算機視覺專委會共同舉辦"生成式大模型研究趨勢及其高效訓練技術交流會",現(xiàn)場不僅有算力升級及資源優(yōu)化解決方案探討,更有南京大學王利民教授、華中科技大學王興剛教授、浙江大學趙洲教授、哈爾濱工業(yè)大學左旺孟教授等多位行業(yè)大咖帶來最新研究成果、技術突破及未來趨勢分享,旨在共同助推人工智技術創(chuàng)新與進步。
會議開場,蘇州超集信息科技有限公司銷售及市場副總裁廖治國指出隨著生成式AI大模型在多個領域的創(chuàng)新應用,我們日常生活迎來了前所未有的變革。但隨著科研深入,算力資源供給和日常使用問題日益凸顯,成為人工智能實現(xiàn)普惠的最大難點。面對科研等多場景用戶的迫切算力需求,超集信息將持續(xù)輸出更高效、更穩(wěn)定、更綠色的高性能計算解決方案,助力更多應用落地,共同助推科技進步。
"人工智能"顧名思義就是希望計算機可以和人類一樣去認知,去思考,而人類在信息獲取、環(huán)境感知、知識學習和表達等方面都是采用多模態(tài)的輸入、輸出方式,隨著人工智能技術等產業(yè)發(fā)展逐步深入,"多模態(tài)"研究的大勢所趨已十分明朗。南京大學王利民教授在報告中為我們帶來了InternVideo模型、自監(jiān)督預訓練方法VideoMAE、多模態(tài)視頻弱監(jiān)督預訓練方法UMT和多模態(tài)視頻交互對話模型VideoChat等前沿技術分享,為多模態(tài)視頻理解提供了重要技術支撐。
同時,文本、圖像、3D資產等多模態(tài)內容的高質量生成都依賴于生成模型中的高效表征學習,華中科技大學王興剛教授在圖像視頻生成領域,研究了Diffusion模型中的低復雜度序列表征,克服了Diffusion Transformer的復雜度高的問題;在高質量文本QA問題上,研究了專有模型和大語言模型之間的通用接口;在3D內容生成方面,提出了動態(tài)場景中的4D Gaussian Splatting表達,通過高效的多維度表征學習全面提升了內容生成的質量和速度。
當然,如何利用多模態(tài)技術在多種應用場景中實現(xiàn)真正應用落地,是我們需要考量的重要議題。浙江大學趙洲教授基于模態(tài)異構語義鴻溝、可泛化視頻內容生成和低延時語音合成等技術,通過理解和模擬人類交流方式(包括語言、視覺和聽覺等多個方面)實現(xiàn)了機器和人類更自然的交互,提供了更加豐富的用戶體驗,助力多模態(tài)技術實現(xiàn)多場景高效落地。
文生圖模型作為當下熱點,是多模態(tài)技術發(fā)展的重要方向。但相對于通用圖像生成,許多應用需求中都會涉及特定個體或特定布局的生成。對于此,哈爾濱工業(yè)大學左旺孟教授帶來了針對特定個體定制化圖象生成的高效編碼網(wǎng)絡Elite方法、結合人臉定制化生成的MasterWeaver方法、針對特定布局圖像生成的動態(tài)生成和開放域正則法等技術分享,為視覺內容生成提供了新的助力。
技術推動著科技發(fā)展,算力則支撐著技術研發(fā)。會議最后,面對生成式AI大模型訓練&推理所需的算力建設、算力選擇與優(yōu)化、算力調度、算力資源高效利用等問題,超集信息資深售前工程師沈佳威結合多場景用戶實際需求,帶來了高性能工作站、智能液冷數(shù)據(jù)中心及PlatforMax智算融合平臺等全方位計算解決方案分享,旨在助力更多客戶高效應對日益復雜的計算挑戰(zhàn)。