人(rén)工智能實驗室如何構建?
學校對于(yú)人(rén)工智能實驗室的(de)建設,規劃清晰、目标明确:要(yào / yāo)在(zài)5月底上(shàng)線方案,讓部分學生先用起來(lái);9月份上(shàng)線整體平台,滿足運維人(rén)員高效管理的(de)需求。學校初次搭建人(rén)工智能實驗室,從各個(gè)角度對平台進行了(le/liǎo)詳細規劃和(hé / huò)明确要(yào / yāo)求:
1.運維管理
支持用戶GPU配額管理
資源模闆化分發,多種配置一(yī / yì /yí)鍵部署
支持與AD域聯動(LDAP)
支持GPU虛拟機生命周期管理
實現“零運維“:科研老師申請計算、存儲、網絡、GPU等使用資源後,無需關心基礎架構運維問題
2.可靠性
需要(yào / yāo)7*24小時(shí)不(bù)間斷使用
規模:多人(rén)并發在(zài)線
3.兼容性
利舊部分現有的(de)服務器及顯卡(約有19台服務器可被利舊使用)
支持不(bù)同型号的(de)顯卡:P40、K80、TITAN V、RTX 2080 Ti
人(rén)工智能實驗室建設難點
基于(yú)學校現有的(de)IT架構,學校人(rén)工智能實驗室平台的(de)建設面臨着以(yǐ)下難題:
1.運維管理複雜
學校采用傳統服務器+外置存儲的(de)架構,設備衆多、日志割裂,導緻運維管理難度大(dà),老師需在(zài)運維工作上(shàng)耗費大(dà)量時(shí)間精力。
2.資源分配不(bù)靈活
不(bù)同研究方向的(de)學生對資源使用要(yào / yāo)求不(bù)同,部分學生可能僅需要(yào / yāo)單卡GPU一(yī / yì /yí)半的(de)計算性能,但複雜的(de)實驗環境導緻資源分配不(bù)夠靈活,造成資源浪費。
3.無法實現多租戶管理
科研老師希望使用root權限管理計算、存儲資源,運維老師出(chū)于(yú)合規性要(yào / yāo)求無法提供相應的(de)root權限,因此需要(yào / yāo)通過多租戶管理滿足不(bù)同老師的(de)需求。
4.需利舊服務器降低成本
學校原有服務器17台,如果新建實驗平台,将導緻成本過高,因此學校希望能夠利舊服務器來(lái)節約成本。
服超融合功能優勢
基于(yú)服超融合構建的(de)底層科研雲平台,架構簡單、便于(yú)集中管理、易于(yú)維護,且超融合可根據學校實際的(de)信息化需求,合理進行規劃和(hé / huò)分配資源。出(chū)于(yú)學校招生人(rén)數需要(yào / yāo),方案除了(le/liǎo)利舊學校原有19台服務器以(yǐ)外,還計劃新采購31台服務器來(lái)滿足未來(lái)科研教學需要(yào / yāo)。
1.極簡架構,快速上(shàng)線
服超融合一(yī / yì /yí)體機可代替傳統架構中的(de)多種設備,将計算、存儲、網絡等資源進行整合,實現标準化交付、模闆化部署,保障學校人(rén)工智能實驗室平台能夠快速上(shàng)線。
2.匹配需求,性能高優
服超融合支持不(bù)同型号的(de)顯卡:48*P40、12*K80、53*TITAN V、8*RTX 2080 Ti,整合衆多顯卡資源,平台浮點運算能力達到(dào)5,600TFlops,GPU核心數達1,740,800個(gè)流處理器,顯存達4,400GB,滿足高性能計算需要(yào / yāo)。
3.統一(yī / yì /yí)運管,靈活配置
通過深信服aCMP雲管平台,可對業務進行全面管理、配置、調度、演練;且平台支持用戶GPU配額管理;資源模闆化分發,多種配置一(yī / yì /yí)鍵部署,大(dà)幅簡化管理運維工作。
4.穩定可靠,靈活擴容
超融合HA機制保障業務運行不(bù)中斷,實現科研平台24小時(shí)穩定運行;利用vAD、DRX、DRS,滿足150人(rén)并發使用需求;且超融合架構具備良好的(de)可擴展性,可随時(shí)按業務需求增加或更換硬件資源,保障平台安全、穩定地(dì / de)運行。
基于(yú)深信服超融合的(de)人(rén)工智能實驗室平台價值
基于(yú)深信服超融合架構的(de)人(rén)工智能實驗室平台,主要(yào / yāo)有以(yǐ)下幾點價值特性:
1.高效管理學生賬号
平台能夠結合AD域批量導入用戶,并進行權限管理,同時(shí)可對新增用戶進行自動同步。
2.支持GPU資源配額的(de)申請
學校用戶可以(yǐ)自主申請GPU雲主機(管理員可以(yǐ)定義雲主機模闆)。
3.靈活的(de)資源調度與分配
支持虛拟機生命周期管理,且虛拟機到(dào)期後自動執行關機操作(虛拟機不(bù)删除,釋放GPU的(de)資源),關機之(zhī)後GPU顯卡可以(yǐ)被其他(tā)用戶使用。用戶可以(yǐ)重新申請GPU資源并開機進入下一(yī / yì /yí)個(gè)生命周期,該過程無需管理員介入審批。
4.貼心定制,節約資源
開發匹配算法,讓相同模闆虛拟機盡量分配在(zài)相同主機上(shàng),避免主機剩餘資源難以(yǐ)滿足高配虛拟機需求導緻資源浪費。
各大(dà)高校爲(wéi / wèi)培養國(guó)家人(rén)工智能高端人(rén)才隊伍,提升我國(guó)人(rén)工智能的(de)持續創新能力做出(chū)了(le/liǎo)巨大(dà)貢獻。未來(lái),深信服将繼續通過持續不(bù)斷的(de)信息科技創新,爲(wéi / wèi)學校師生提供創新的(de)産品和(hé / huò)解決方案,助力高校快速建設實驗室,積極推動人(rén)工智能領域的(de)學術研究和(hé / huò)人(rén)才培養。