ServMAX® C208-X3
2U機架式高性能計算服務器,采用雙路3rd Gen Intel® Xeon® Scalable系列處理器,支持PCIe4.0協議,16條DDR4插槽,整機...
查看詳情PlatforMax智算融合平臺是超集信息自主研發的面向于高性能計算(HPC)和人工智能(AI)場景的智算融合平臺,采用先進的技術架構,由同一個管理節點納管,可以將計算節點資源劃分為HPC和AI兩個分區,分區資源既相互獨立又相互融合,滿足用戶在不同時間段對于HPC及AI業務的不同資源需求,為用戶提供了一套既可以進行HPC作業,又可以進行AI訓練的環境,助力HPC+AI業務的發展。
基礎設施以硬件服務器為載體,支持主流 X86 服務器,配置 NVIDIA GPU 實現高性能加速計算,采用主流分布式存儲設備,支持 TCP/IP,InfiniBand 高速網絡互聯。
平臺層是整個系統的核心內容,采用先進的技術架構,能夠實現異構資源的高效管理、調度和監控,除提供AI模型開發、AI模型訓練到AI部署的完整功能外,也適用于生命科學、氣象預報、量子力學、油氣勘探等HPC科學計算領域。
提供集群資源監控、集群節點管理、集群分區管理、用戶權限管理、數據存儲、任務鏡像等管理服務,對集群內資源進行HPC分區節點、AI分區節點的管理,采用表盤式工作界面,首頁看到已申請配額,已用資源、用戶資源、所有節點信息、任務統計等,菜單界面平滑直觀,功能化繁為簡,一目了然。
管理員對用戶和用戶組的CPU、GPU、內存和存儲配額進行設定,限定資源數量。系統具備集群管理員、分區管理員、項目管理員、普通用戶多級多角色管理,用戶的數據存儲空間相互隔離,每個用戶只能訪問各自空間的數據,無法越界訪問未授權的數據,支持設置用戶有效期,以及批量導入用戶。
平臺內置Tensorflow、PyTorch、MxNet、CUDA、Gromacs、NAMD、LAMPPS、OpenVINO、oneAPI等鏡像,還可連接NGC、Docker HUB等獲取鏡像,允許用戶通過Docker Exec連接并配置鏡像環境;支持通過requirements.txt、pip、conda等多種方式安裝配置python包,滿足不同背景和層次的用戶對鏡像制作的要求。
平臺通過NFS實現統一的網絡文件存儲系統,支持基于GlusterFS和NFS的多個卷同時共存和使用,支持數據上傳、下載、刪除、壓縮、解壓、復制、移動和內容瀏覽等,NFS數據支持本地數據緩存,提高IO性能。不同用戶的私有數據相互隔離,用戶不同的項目數據之間相互隔離。
用戶可在平臺上提交AI或HPC任務,AI任務可選單機或分布式任務,單機最小支持1/8GPU,分布式任務支持容器之間SR-IOV高速虛擬網卡通信,同時具備超參數調節、模型可視化、日志查看等一系列環節和工具;HPC任務支持Web、Shell、命令行等方式提交任務,Slurm調度器根據資源需求,調度任務到最優節點,保障任務高效運行。
監控系統CPU、GPU、內存使用率,節點狀態,分區資源消耗和任務運行情況,通過單一界面管理平臺,從分區、用戶、集群、任務類型等各個層次和維度展示當前GPU的空閑和占用狀態,支持按種類查看GPU卡的使用,監控報表可選擇AI或HPC生成所選時間的監控表報。
2U機架式高性能計算服務器,采用雙路3rd Gen Intel® Xeon® Scalable系列處理器,支持PCIe4.0協議,16條DDR4插槽,整機...
查看詳情4U機架式高性能GPU服務器,搭配雙路3rd Gen Intel® Xeon® Scalable系列處理器,支持PCIe 4.0協議,搭載10張GPU,提供超高算力...
查看詳情6U機架式高性能GPU服務器,搭配雙路AMD EPYC™ 7003/7002系列處理器,支持PCIe 4.0協議,搭載8片A800 40/80GB SXM4...
查看詳情4U機架式服務器,雙路第三代英特爾®至強®可擴展系列處理器,單顆最高可達40核,支持CPU TDP 270W,16根DDR4 DIMM內存插槽,整機...
查看詳情