寧夏中衛(wèi),素有“中國幾何中心”之稱,地處大漠與黃河交匯之地,遠離東部喧囂,卻在數(shù)字時代悄然崛起。這里不僅建成了國家級新型互聯(lián)網(wǎng)交換中心——西部唯一獲批的國家級交換節(jié)點,還與國家一體化大數(shù)據(jù)中心共同構成“雙中心”格局,撐起全國算力版圖的關鍵一角。
在中國的幾何中心
建設頂尖的數(shù)據(jù)中心
中國電信寧夏數(shù)據(jù)中心起步于中衛(wèi),是連接西部算力資源與東部算力需求的重要橋梁。中心總建筑面積達6.8萬平方米,具備完善的生態(tài)體系和豐富的云服務資源,配備20萬核通用算力與7000 PFLOPS智能算力,能夠高效支撐多類智能計算業(yè)務。目前,數(shù)據(jù)中心服務范圍覆蓋全國,支撐700多個政務系統(tǒng)、100多家互聯(lián)網(wǎng)醫(yī)院、800所學校及300余家工業(yè)企業(yè)的計算與存儲需求,為推動數(shù)字經(jīng)濟的高質(zhì)量發(fā)展持續(xù)注入新動能。
作為中心的運營方,中國電信寧夏分公司(以下簡稱“寧夏電信”)的目標不僅是建成一座高規(guī)格數(shù)據(jù)中心,更希望將其打造為“東數(shù)西算”工程中全國一體化算力網(wǎng)絡的核心樞紐和示范標桿。然而在AI時代,面對千卡、萬卡級別的超大規(guī)模集群,如何真正釋放算力潛能,讓數(shù)據(jù)中心如同“算力出租車”般靈活高效地服務東部多行業(yè)客戶,仍面臨多重挑戰(zhàn)。不僅要兼顧性能與成本,還需提升網(wǎng)絡效率,減少資源等待帶來的損耗。同時,云環(huán)境下的資源調(diào)度能力,以及智能化、可視化的運維體系,也成為提升整體運營水平的關鍵。
應對大規(guī)模集群的多維需求
先進智算網(wǎng)絡實現(xiàn)“既要又要”
“算力是基礎引擎,網(wǎng)絡則是連接一切的關鍵樞紐。”中國電信寧夏分公司東數(shù)西算事業(yè)部智算解決方案經(jīng)理郭紳表示,“在邁向未來的路上,我們越來越清楚地意識到,網(wǎng)絡不再只是算力的配套,而是決定業(yè)務效率和用戶體驗的關鍵。只有打破網(wǎng)絡瓶頸,才能真正釋放算力潛能,為未來的業(yè)務拓展留出空間。就在我們團隊積極尋找突破口的時候,新華三帶著智算網(wǎng)絡解決方案來到這里,成為了我們的首選。”
● 創(chuàng)新RoCE部署,硬件成本降低40%-50%
在應對訓練等任務時,節(jié)點間需頻繁進行大規(guī)模數(shù)據(jù)交換,網(wǎng)絡的延遲和丟包率直接影響整體計算效率與任務完成時間。傳統(tǒng)做法通常采用低延遲、不丟包的InfiniBand方案。但InfiniBand屬于封閉的私有技術棧,設備價格高昂,且對多租戶管理和SDN功能支持有限。這意味著,數(shù)據(jù)中心將來可能面臨成本高、架構封閉、可擴展性差等諸多挑戰(zhàn)。
基于對成本、性能與長期可維護性的綜合考量,寧夏電信攜手新華三創(chuàng)新采用了基于以太網(wǎng)的RoCE技術,以此實現(xiàn)成本、性能、可管理性、可維護性等方面的兼顧平衡。相較于InfiniBand,RoCE網(wǎng)絡在保持同等低延遲、高吞吐能力的同時,硬件成本降低了約 40%–50%。同時,得益于開放的產(chǎn)業(yè)生態(tài)和成熟的供應鏈體系,設備供貨周期也縮短至原來的 1/10。
● 400G超寬無損網(wǎng)絡,實現(xiàn)1:1上下行收斂比
在確定采用以太網(wǎng)RoCE技術棧后,隨之而來的核心挑戰(zhàn)就是如何設計一套既能承載高性能算力、又具備良好擴展性的網(wǎng)絡架構。傳統(tǒng)數(shù)據(jù)中心架構在面對高性能計算場景時,常常受限于高并發(fā)、大流量帶來的傳輸瓶頸,延遲和丟包問題頻發(fā),直接影響訓練效率。同時,傳統(tǒng)架構擴展性不足,也難以靈活支撐從千卡到萬卡的集群演進。
為此,新華三為寧夏電信量身打造了基于Spine-Leaf的智算網(wǎng)絡架構,并采用H3C S9825系列400G高速交換機,實現(xiàn)Spine與Leaf層間上下行帶寬1:1配置。這不僅有效解決了數(shù)據(jù)在集群內(nèi)部高頻傳輸帶來的擁塞問題,也為后續(xù)算力規(guī)模的平滑擴容提供了充足彈性。
“過去我們最擔心的,就是隨著集群規(guī)模擴大,網(wǎng)絡性能跟不上,影響整體訓練效率?,F(xiàn)在采用了這套全新方案后,延遲大幅下降,訓練流程顯著提速,我們對效率的擔憂也隨之徹底消除。”中國電信寧夏分公司東數(shù)西算事業(yè)部智算解決方案經(jīng)理郭紳介紹,“更重要的是,這套架構不僅穩(wěn)穩(wěn)支撐了當前8K卡集群的運行,還具備出色的平滑演進能力,讓我們對未來擴展到更大規(guī)模充滿信心。”
● 多租戶算力隔離管理,靈活運營
在日常運營中,寧夏電信數(shù)據(jù)中心需要將智算集群劃分為多個虛擬資源池,以同時服務來自不同行業(yè)和地區(qū)的客戶。這對網(wǎng)絡與資源管理平臺提出了更高要求:不僅要具備作業(yè)調(diào)度、租戶計費等基礎能力,更要實現(xiàn)資源的靈活分配與租戶間的高效隔離,從根本上避免數(shù)據(jù)安全隱患和性能干擾。
針對這一挑戰(zhàn),新華三在整體方案中引入了基于以太網(wǎng)RoCE架構的ACL訪問控制機制,作為多租戶隔離與資源管理的核心支撐技術。通過ACL技術,中心能夠?qū)γ總€租戶的資源、作業(yè)與數(shù)據(jù)進行獨立管理,確保算力資源與網(wǎng)絡的雙重隔離,在保障安全的同時,顯著提升集群的資源調(diào)度效率和租賃靈活性。升級后,資源申請可實現(xiàn)分鐘級上線,租用與退租流程也大幅簡化,既滿足了客戶的多樣化需求,也為算力運營效率帶來質(zhì)的提升。
● 讓“黑盒”網(wǎng)絡逐步透明,運維效率提升90%+
在推進智算服務體系建設的同時,寧夏電信也積極探索面向未來的數(shù)據(jù)中心運維體系。借助SDN等技術手段,逐步實現(xiàn)了對前端節(jié)點與后端GPU集群互聯(lián)狀態(tài)的統(tǒng)一管理,能夠?qū)崟r掌握網(wǎng)絡中的會話、流量、路徑及負載分布情況,運維人員可據(jù)此快速完成參數(shù)調(diào)優(yōu)與資源配置。
圍繞運維過程中的延遲、抖動、故障、性能波動等場景,寧夏電信也構建起涵蓋預警、分析、定位與決策的智能化機制,通過可視化手段將網(wǎng)絡拓撲全面呈現(xiàn),使得運維人員不僅能在大屏、小屏上直觀掌控全局狀態(tài),更能精準鎖定問題類型與位置,實現(xiàn)從“黑盒”到“可視、可管、可調(diào)”的跨越。經(jīng)實際運行驗證,網(wǎng)絡故障平均定位時間縮短超過90%,運維效率和響應能力大幅提升。
之于中衛(wèi),黃河是魂,有了水,大漠才能煥發(fā)生機;同樣,對于拔地而起的新型智算中心,網(wǎng)絡亦是核心,它連接龐大算力與東西部資源,承載著今日的需求與未來的希望。在“東數(shù)西算”戰(zhàn)略的引領下,中國電信寧夏分公司攜手新華三,以領先的智算網(wǎng)絡技術為基石,共同打造面向未來的數(shù)字樞紐,這不僅是一次技術創(chuàng)新的勝利,更是一段數(shù)字時代開拓者的故事。
(來源:新華三)