浙江大學(xué)計(jì)算機(jī)學(xué)院正進(jìn)行計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)圖形學(xué)的基礎(chǔ)理論、算法及其 相關(guān)的應(yīng)用研究。以緊密跟蹤國(guó)際學(xué)術(shù)前沿為目標(biāo),期望通過(guò)大力開(kāi)展原始性創(chuàng)新 研究及應(yīng)用集成開(kāi)發(fā)研究,打造具有國(guó)際影響的計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)研究基 地、高層次人才的培養(yǎng)基地、學(xué)術(shù)交流的基地和高技術(shù)輻射基地。
此次項(xiàng)目,浙江大學(xué)計(jì)算機(jī)學(xué)院欲搭建人工智能實(shí)驗(yàn)平臺(tái),涵蓋學(xué)習(xí)圖像分類、目標(biāo) 檢測(cè)、圖像分割和生成、自然語(yǔ)言處理、視頻分類等,以培養(yǎng)學(xué)生自主開(kāi)發(fā)的實(shí)操 能力為教學(xué)核心。
浙江大學(xué)計(jì)算機(jī)學(xué)院需要搭建一套人工智能實(shí)驗(yàn)平臺(tái),用于學(xué)校的本科生實(shí)操及在校人 工智能導(dǎo)師科研項(xiàng)目,該實(shí)驗(yàn)室提出了以下幾點(diǎn)核心需求:
- 對(duì)于整套集群需要有管理員監(jiān)控以及管理
- 整套平臺(tái)易于操作,便于導(dǎo)師教學(xué)
- 學(xué)生可以在實(shí)操過(guò)程中合理利用資源訓(xùn)練
- 導(dǎo)師能夠?qū)Y源合理分配并監(jiān)控
- 在大量的教學(xué)和訓(xùn)練場(chǎng)景外,還需支持導(dǎo)師的復(fù)雜科研場(chǎng)景
針對(duì)項(xiàng)目需求,AMAX采用可支持10塊GPU的新型4U機(jī)架式服務(wù)器 G4010-X2 作為計(jì)算節(jié)點(diǎn)并采用 G202-X2 及 G4024-X2 作 為集群的存儲(chǔ)管理節(jié)點(diǎn),搭配分布式存儲(chǔ)軟件以及萬(wàn)兆以太網(wǎng)作為本套集群的計(jì)算網(wǎng)絡(luò),滿足低延時(shí)計(jì)算需求。新型機(jī)架式服務(wù)器 G4010-X2 技術(shù)成熟穩(wěn)定,易于維護(hù),滿足多方面的應(yīng)用需求。
另外,在外部網(wǎng)絡(luò)上采用萬(wàn)兆以太網(wǎng)絡(luò)作為IPMI網(wǎng)絡(luò),用戶可以進(jìn)行主動(dòng)監(jiān)測(cè),以確保組件狀態(tài)不超出所設(shè)閾值。 IPMI的預(yù)告故障 能力也有助于 IT 的周期管理,通過(guò)檢查系統(tǒng)事件日志 (SEL),可以更輕松的預(yù)先判定故障組件。
- 采用雙路2nd Gen Intel® Xeon® Scalable系列處理器
- 4U機(jī)架式服務(wù)器寬
- Up to 24 DIMM DDR4
- 搭載10片F(xiàn)HFL GPU
- 支持24塊2.5寸和6塊3.5寸硬盤(pán)
- 2000W (2+2)冗余電源
- 豐富的I/O擴(kuò)展性
浙江大學(xué)計(jì)算機(jī)學(xué)院對(duì)于服務(wù)器、存儲(chǔ)、交換機(jī)等硬件設(shè)備要求較高,但除了高性能服務(wù)器集群,平臺(tái)層也是整個(gè)系統(tǒng)的核心(操作 系統(tǒng)、GPU驅(qū)動(dòng)、CUDA、CuDNN、Tersonflow、Caffe、PyTorch等)。
AI MAX 機(jī)器學(xué)習(xí)平臺(tái)是一款基于 Docker+Kubernetes 的人工智能容器云平臺(tái),能夠?qū)崿F(xiàn)異構(gòu)資源的高效管理、調(diào)度和監(jiān)控,為從 模型開(kāi)發(fā)、訓(xùn)練到部署的完整流程提供了高效工具。
主要特點(diǎn):
·資源配額:支持對(duì)用戶和分區(qū)設(shè)置資源的配額,包括CPU、GPU、Mem,用戶使用的資源總和不能超過(guò)配額,分區(qū)任務(wù)消耗 的資源總和不能超過(guò)配額 ,超出資源任務(wù)可自行排隊(duì)等待
·數(shù)據(jù)訪問(wèn)控制:用戶的數(shù)據(jù)存儲(chǔ)空間相互隔離,每個(gè)用戶只能訪問(wèn)各自空間中的數(shù)據(jù),無(wú)法越界訪問(wèn)未授權(quán)的數(shù)據(jù)
·分區(qū)管理:將集群資源在邏輯上劃分為不同的分組,不同的分組設(shè)置不同的資源數(shù)量,滿足不同項(xiàng)目組的資源使用和隔離需求
·鏡像:
- 提供鏡像制作滿足不同背景和層次的用戶對(duì)鏡像制作的要求
- 可搜索下載鏡像放入私有或公有倉(cāng)庫(kù)
- 鏡像定制根據(jù)已有鏡像基礎(chǔ)添加python包
- 鏡像預(yù)測(cè):對(duì)系統(tǒng)所有鏡像的運(yùn)行環(huán)境如操作系統(tǒng)、python環(huán)境、python packages進(jìn)行掃描并打標(biāo)簽,啟動(dòng)任務(wù)時(shí)自動(dòng)匹 配并選擇正確的鏡像
·管理員權(quán)限:
- 用戶權(quán)限:可創(chuàng)建用戶組指定權(quán)限,可創(chuàng)建用戶并設(shè)置歸屬某用戶組該用戶享有該用戶組權(quán)限
- 資源管理:創(chuàng)建邏輯資源分區(qū),分配物理機(jī)資源;指定用戶歸屬指定邏輯資源分區(qū)
- 任務(wù)訓(xùn)練:查看和管理交互式開(kāi)發(fā)、任務(wù)訓(xùn)練、可視化進(jìn)程、模型部署
- 數(shù)據(jù)存儲(chǔ):對(duì)于公共數(shù)據(jù)的增刪改查
- 監(jiān)控中心:監(jiān)控中心提供了多維度和多層次的監(jiān)控信息,使系統(tǒng)使用透明、可追蹤。管理員用戶在左側(cè)菜單欄中選擇監(jiān)控中心, 即可查看集群、節(jié)點(diǎn)和分區(qū)的資源使用情況
浙江大學(xué)計(jì)算機(jī)學(xué)院在得到 AMAX 物理集群的支撐后,深度學(xué)習(xí)實(shí)驗(yàn)平臺(tái)已運(yùn)用到實(shí)際學(xué)習(xí)中。通過(guò) AI Max 的模型訓(xùn)練、超參數(shù) 調(diào)節(jié)、模型可視化、日志查看等一系列高效工具,大大提升了用戶的工作效率,使其可以專心致力于核心的算法設(shè)計(jì)。通過(guò)資源 配額、任務(wù)調(diào)度和容錯(cuò),使模型訓(xùn)練任務(wù)高效可靠;分布式任務(wù)也大大提升了大規(guī)模網(wǎng)絡(luò)模型的訓(xùn)練性能。