浙江大學作為國際知名學府 ,其計算機學院以培養求實創新 、與時俱進的具有國際視野的知名計算機人才為使命 ,先后培養出一大批工程院院士 。學院擁有計算機輔 助設計與圖形學(CAD&CG)國家重點實驗室 、國家列車智能化工程技術研究中心及 10個省部級重點實驗室 /工程技術研究中心 ,高精尖的基礎設施配備保障了學院的學 科建設。 超級計算機集群系統是由多臺 高性能計算服務器以及完整生態的管理軟件梅成的一個并行或分布式系統 。整個計算機集群系統運行一系列共同的應用程序,處理大批 量復雜計算 ,同時為用戶和應用程序提供單一的系統映射 。集群系統聚集了多個服 務器的計算能力 ,能夠大幅提高性能 ,還可以隨時根據需要擴充規模 ,同時又不必 付出大型計算機的高額成本 ,往往被用來實現負載均衡 、進行高效的科研或真他應 用需求的并行計算 ,以綜合成本獲得在性能 、可靠性 、靈活性萬面的較高的收益 。 集群管理軟件為整個集群提供了 統一筐理窗口,包括硬件、操作系統和用戶界面 。專業 、簡易的集群筐理軟件可以對集群進行系統的管理 、配置 、維護 ,方便用戶的曰常使用和維護筐理 。
在浙江大學的科研水平逐步 向前邁進的同時,學院對計算能力的需求也與日俱蹭,浙江大學為滿足學院對計算力的需求,采購了大量 的計算服務器。但是龐大的計算服務器儲備不代表能夠實現巨大的計算能力,如何充分利用現育設備,高放匹配科研計算需求并進行 計算資源合理的分配,成為院系在設備配置上的重大考慮因素。 為了實現學院內不同研究萬向的計算力需求,浙江大學針對服務器資源整合提出了幾個核心需求:
操作便捷性:學院內使用人員的技術水平不等,部分入精通于編程計算,部分人擅悵于應用分析,因此集群管理軟件需要能回時 支持圄形化界面和命令行操作,滿足不同人對集群的需求;
廣泛兼窯性:學院內已杳計算服務器資源復雜,使用人員研究方向多樣,部署的集群管理軟件需要支持 X86 平臺的 CPU 服務 器,GPU 服務器,同時支持 HPC 計算,入工智能框架部署,Hadoop 平臺管理;
平臺安全性:計算集群承載了學院的研究重任 ,不能因為服務器的崩潰而導致研究的停止,因此部署的集群管理軟件要保證集群 的健康穩定運行;
權限合理性:整套計算集群面向學院內教擺平日學生開放,需要提供明確的角色權限劃分 ,并根據權限的高低調整計算集群的分配 相計算任務的優先級;
管理高效’性 :由于服務器資源龐大,使用人員眾多,給運維入員帶來較大的困擾。部署的集群管理軟件需要提供豐富的展示數 據,可直觀查看集群內的可用資源,網絡負載,便件服務器的健康狀態等信息。
AMAX 中國一直從事高性能計算解決萬案 ,在國內部署過大量計算集群系統,深知科研院校對合理利用計算資源的迫切需求 。綜合考慮浙江大學對計算集群平臺的需求,AMAX 提供了Bright Cluste Manager ( 簡稱BCM ) 的產昂萬案。
BCM功能特點:
提供直觀的圖形操作界面,用戶可自由切換圖形界面與命令行操作,提供多用戶、跨地區多集群管理界面
能支持普通X86服務器和IBM Power System ,支持基于Linux操作系統的CPU/GPU集群,支持容器級別的操作設置,提供Docker容器的可視化管理,提供Kubernetes環境功能,支持Hadoop , Spark環境部署管理;
可實現雙活管理節點設置,避免因管理節點故障導致集群癱瘓的風險;
無縫對接領先的任務調度器 ,如Slurm、LSF、PBS pro、Open grid scheduler 、open LAVA、Univa grid engine等,并且 所選任務調度器自動安裝和配置 ;
實時集群健康度檢查,用戶可直觀看到異常現象并收到異常通知 ,標準監控參數涵蓋CPU,內存,硬盤 ,網絡,機器溫度,鳳 扇轉速等,可監控機器內多個GPU/Phi 協處理器的運行狀態,參數包括溫度 ,內存使用狀況,運行負載等;
提供便捷的用戶信息管理,完善的任務提交策略,可根據用戶權限實現提交任務的優先級分配。
硬件層 :可支持 Linux 系統環境的服務器系統,含 X86 服務器 ,Power&務器,還可以支持 CPU 、GPU 、FPGA 、ASIC 等 專用計算加速芯片的異構平臺集群 ;
環境層 :提供分布式文件系統及分布式應用框架的接口,提供高性能計算,并行計算和計算數學庫 ,例如 MPI, Open MP, CuDNN 等;
調度層 :提供 Slurm 、LSF、 PBS、PBS Pro、Open grid scheduler、open LAVA 、Univa grid engine 等任務調度器 ;
平臺層:以統一平臺的方式對外提供高性能計算的相關功能 ,包括UI界面方式和服務模式 。既有基于瀏覽器的人機接口 ,也可提 供基于 Web Service 的云服務接口;
應用層 :提供 HPC 管理,Hadoop, Spark 平臺管理,Kubernetes 平臺管理等功能 ,實現高性能計算,人工智能研究,大數 據研究的功能。
AMAX 為浙江大學部署了Bright Cluster Manager 后,實現了服務器資源的再做整合并將現有的服務器資源使用率上升了多個百分 點。對于浙江大學的教授和學生而言,實現了在一個平臺內進行 HPC, Al, Big Data 的獨立方向研究,也為 HPC 往 Al 方向發展, 利用Al 加速 HPC 研究創造了有利條件。 浙江大學在集群系輯部署使用后表示: “高校的科研項目經費有限,但對設備的性能要求卻不能低。AMAX 的集群解決方案既為學院提高了整體的計算能力,還節省了大量的成本,后期維護首理也很方便,是高校科研非常理想的好助手。”