近日,在華為全聯(lián)接大會2024上,華為數(shù)據(jù)存儲與聯(lián)通云共同發(fā)布面向通智超一體化的全場景存儲最佳實踐。通過聯(lián)通云自研存儲引擎和華為OceanDisk軟硬協(xié)同創(chuàng)新,聯(lián)合打造高性能、高可靠的算力存儲底座,助力聯(lián)通云提供更優(yōu)質(zhì)的云服務(wù),加速各領(lǐng)域數(shù)字化轉(zhuǎn)型!
“當(dāng)前,計算領(lǐng)域多元化需求日益顯著。比如,通用計算中混合類型業(yè)務(wù)的性能需求差異較大,智算對I/O性能的要求極高,而超算則需要兼顧高性能、大容量與TCO的均衡?!? 聯(lián)通云CTO過曉春表示,“為此,云服務(wù)必須實現(xiàn)通智超一體化場景覆蓋,數(shù)據(jù)底座的創(chuàng)新成為關(guān)鍵突破口?!?/p>
面對行業(yè)挑戰(zhàn),華為與聯(lián)通云攜手應(yīng)對如下三大痛點:
1、業(yè)界傳統(tǒng)采用的分布式存儲軟件+通用服務(wù)器架構(gòu)極易出現(xiàn)性能瓶頸,導(dǎo)致智算GPU空置等待時長,無法充分發(fā)揮效能,限制業(yè)務(wù)開發(fā)效率。
2、隨著智算集群不斷擴大,逐步邁入萬卡、十萬卡級別,集群的故障率也隨之指數(shù)級激增。以萬卡規(guī)模為例,平均每兩天會出現(xiàn)一次故障,導(dǎo)致計算進程受損、核心數(shù)據(jù)丟失。
3、各行業(yè)智能化的深入,讓數(shù)據(jù)來源變得更加廣泛,大規(guī)模計算所調(diào)用的數(shù)據(jù)集往往分散在多個數(shù)據(jù)中心、不同設(shè)備中。海量數(shù)據(jù)的跨地域、跨設(shè)備訪問,增加了數(shù)據(jù)同步的難度。
作為中國聯(lián)通五大主責(zé)主業(yè)布局中的統(tǒng)一算力基座,聯(lián)通云依托其“聯(lián)接+感知+計算+智能+安全”的算網(wǎng)一體化服務(wù),攜手華為,利用雙方優(yōu)勢資源,構(gòu)建了面向通智超一體化場景的熱、溫、冷存儲分布式存儲系統(tǒng)。該系統(tǒng)基于聯(lián)通云自研存儲引擎與華為OceanDisk智能盤框,實現(xiàn)了以下顯著優(yōu)勢:
|
全局數(shù)據(jù)“一盤棋”視圖:通過打造廣域元數(shù)據(jù)中心,將全國的物理集群信息、數(shù)據(jù)歸屬信息進行了統(tǒng)一管理,通過打造智能調(diào)度,可以做到統(tǒng)一入口,按照調(diào)度策略,將數(shù)據(jù)上傳到任一物理集群,構(gòu)筑了構(gòu)筑廣域異構(gòu)聚合、數(shù)據(jù)跨域流動的全局數(shù)據(jù)視圖。
| 極致GPU利用率:智算時代,誰能充分利用GPU,誰就是贏家?;谌A為OceanDisk智能盤框單框高達70GB/s的極致帶寬,通過算存聯(lián)動,創(chuàng)新地實現(xiàn)了訓(xùn)練任務(wù)編排與數(shù)據(jù)流動時間預(yù)測的結(jié)合,確保數(shù)據(jù)在訓(xùn)練任務(wù)開始前到位,減少了GPU閑置時間,實現(xiàn)GPU利用率10%的提升。
| 極致可靠:基于華為OceanDisk智能盤框雙控A-A架構(gòu)、硬盤故障預(yù)測等多級可靠性設(shè)計,同時通過AI賦能存儲,設(shè)計了SPL(磁盤、性能、環(huán)境)多源數(shù)據(jù)采集、處理、存儲、訓(xùn)練與推理的系統(tǒng)架構(gòu),集成故障預(yù)測與狀態(tài)監(jiān)控功能,降低故障率30%,同時實現(xiàn)計算集群故障后秒級恢復(fù)。
華為數(shù)據(jù)存儲將持續(xù)深化與伙伴及客戶的創(chuàng)新合作,助力應(yīng)用生態(tài)的繁榮發(fā)展,推動行業(yè)數(shù)字化轉(zhuǎn)型進程,為我國數(shù)字經(jīng)濟建設(shè)注入源源不斷的強勁動力。