行至云深處,AI在加速!9月13日,2023英特爾®互聯網數據中心峰會在武漢盛大開幕。超集信息作為英特爾鈦金級合作伙伴受邀出席,攜手齊"芯"求突破、促發展、助產業。
本次峰會圍繞有望成為新一輪技術革命和產業變革重要驅動力量的大語言模型(LLM)技術展開了重點探討。從BERT,Transformer到ChatGPT,LLM不斷進化,能夠處理更復雜的語言結構、語義和上下文信息,實現更加準確和自然的溝通,已成為通往Al時代的核心途徑。但LLM的訓練及推理量十分龐大,如ChatGPT便擁超過8000億個單詞的數據,已對現有算力基礎設施性能提出嚴峻挑戰。
面對大語言模型發展下的算力挑戰,超集信息與英特爾通過市場、技術、產品等方面的全方位密切合作,在OCSP設計規范下,基于英特爾®至強®Max系列處理器,聯合推出了"LLM推理一體機解決方案",并于本次峰會正式亮相。
超集信息LLM推理一體機
LLM推理一體機基于第四代英特爾®至強®處理器,充分釋放Max處理器的HBM高帶寬內存性能,結合獨有的大模型推理加速引擎,實現推理結果的高準確率、低延遲性,并有效降低總體擁有成本。
HPC+AI無縫切換
一體機搭載兩顆第四代英特爾®至強®系列處理器、32根DDR5內存,可提供10個PCIe擴展位,使得一體機既可承載HPC計算任務,又可無縫切換至AI推理業務部署模式,一機兩用,確保基礎設施成本可控且安全。
高性價比
憑借至強® Max系列處理器更多內核、更先進的I/O與內存子系統以及獨特的高帶寬內存(HBM)設計,一體機不僅可滿足10-60B參數的模型推理能力,在推理準確度、延遲等關鍵指標均能提供令人滿意的結果,綜合整體性能與價格,為用戶實現極高的性價比。
計算能力靈活擴展
一體機算力可根據用戶需求進行定制,同時支持單機的大語言模型推理和多機多柜的分布式大語言模型推理,適應不同模型量級和算力需求的場景。
智能管理與監控
用戶可實時監控一體機的資源使用情況和狀態,包括設備健康度、設備運行時間、CPU使用數、內存使用率、系統運行負載、進程運行狀態、磁盤使用率、磁盤運行狀態等。
峰會現場,我們還帶來了基于LLM推理一體機的Demo展示。Demo呈現的"文本生成平臺"使用國內主流模型ChatGLM-6B,融合英特爾®大模型推理引擎xFasterTrans-former,充分結合至強®Max的英特爾高級矩陣擴展指令集(AMX)和HBM高帶寬優勢,單顆處理器的文本生成耗時可低至30ms以下。
憑借簡單易用的LLM推理一體機解決方案,超集信息將進一步降低模型推理門檻,通過更高帶寬、更優性能、更強算力等優勢,我們將滿足更多客戶對高性能、高效率的深度學習推理及訓練的需求。