導(dǎo)語(yǔ):大模型之戰(zhàn),誰(shuí)能快速部署高性能大模型訓(xùn)練平臺(tái),快速訓(xùn)練上線,誰(shuí)就能搶占市場(chǎng)先機(jī)。“100+行業(yè)智能化轉(zhuǎn)型故事”第111期,我們走進(jìn)知名人工智能企業(yè)科大訊飛,它如何打造存、算、網(wǎng)全棧自研的AI大模型解決方案和算力平臺(tái)?
2025上海WAIC大會(huì)的“翻譯合作伙伴”、智能語(yǔ)音和人工智能企業(yè)科大訊飛,擁有語(yǔ)音及語(yǔ)言國(guó)家工程實(shí)驗(yàn)室和認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室。面對(duì)業(yè)界百模大戰(zhàn),如何快速部署高性能大模型訓(xùn)練平臺(tái),快速訓(xùn)練上線,搶占市場(chǎng)有利位置?科大訊飛與華為聯(lián)合打造存、算、網(wǎng)全棧自研的AI大模型解決方案,共同建設(shè)國(guó)內(nèi)首個(gè)支持萬(wàn)億參數(shù)大模型訓(xùn)練的算力平臺(tái)“飛星一號(hào)”。
大模型建設(shè)中遇到了哪些問題?
星火認(rèn)知大模型從海量數(shù)據(jù)和大規(guī)模知識(shí)中持續(xù)進(jìn)化,實(shí)現(xiàn)了從提出、規(guī)劃到解決問題的全流程閉環(huán)。人工智能技術(shù)從感知理解世界的專用領(lǐng)域向生成創(chuàng)造世界的通用領(lǐng)域進(jìn)行跨越式演進(jìn),這一過(guò)程產(chǎn)生了對(duì)數(shù)據(jù)存儲(chǔ)的新挑戰(zhàn):
• 集群可用度低:AI大模型訓(xùn)練以多機(jī)多卡任務(wù)為主,故障頻率高,模型加載和斷點(diǎn)續(xù)訓(xùn)CheckPoint讀寫時(shí),對(duì)存儲(chǔ)系統(tǒng)IO和帶寬性能要求很高,千卡以上集群平均每天故障1次,斷點(diǎn)恢復(fù)時(shí)間高達(dá)15分鐘+,每次損失幾十萬(wàn)。
• 集群分散不可靠:多家存儲(chǔ)“煙囪式”建設(shè),總?cè)萘繋资甈B,切分成幾十個(gè)PB級(jí)的分散小集群,極大地增加了管理復(fù)雜度,并采用軟硬分離的方式建設(shè)存儲(chǔ)集群,降低了存儲(chǔ)集群的可靠性同時(shí)也降低了帶寬能力。
• 數(shù)據(jù)治理困難:AI訓(xùn)練集的文件數(shù)量有百億個(gè),當(dāng)前“煙囪式”存儲(chǔ)集群的建設(shè)模式,形成多個(gè)數(shù)據(jù)孤島,數(shù)據(jù)需要人工遷移,效率低。同時(shí)無(wú)全局?jǐn)?shù)據(jù)可視能力,無(wú)法識(shí)別冷熱數(shù)據(jù)與高價(jià)值數(shù)據(jù),數(shù)據(jù)難以治理。
大模型廠商對(duì)存儲(chǔ)的核心訴求是:
1、高性能的存儲(chǔ)底座,以支撐多機(jī)多卡的AI集群極致的訓(xùn)練時(shí)長(zhǎng)和盡可能快的斷點(diǎn)續(xù)訓(xùn)能力,降低錯(cuò)誤回滾率。
2、統(tǒng)一的AI存儲(chǔ)數(shù)據(jù)湖管理能力,高效可靠的數(shù)據(jù)治理能力。
優(yōu)質(zhì)存儲(chǔ)成為大模型時(shí)代的“黃金門票”
華為與科大訊飛聯(lián)合打造中國(guó)首個(gè)超大規(guī)模算力平臺(tái)AI數(shù)據(jù)湖存儲(chǔ)底座,針對(duì)通用AI大模型訓(xùn)練,科大訊飛采用算、存分離架構(gòu),計(jì)算側(cè)追求更加極致的算力釋放,存儲(chǔ)側(cè)部署多套華為OceanStor AI數(shù)據(jù)湖解決方案,提供可靠高效的幾十PB超大可得存儲(chǔ)容量。依托智能數(shù)據(jù)分級(jí)與多集群故障隔離、高效數(shù)據(jù)治理的高性能存儲(chǔ),實(shí)現(xiàn)TB級(jí)帶寬,端到端加速AI模型開發(fā)。
15min→1min,斷點(diǎn)續(xù)訓(xùn)恢復(fù)速度提升15倍,日節(jié)省幾十萬(wàn)元
斷點(diǎn)續(xù)訓(xùn)恢復(fù)速度提升15倍:集群最大提供TB級(jí)大帶寬,縮短CheckPoint讀寫耗時(shí),斷點(diǎn)續(xù)訓(xùn)恢復(fù)時(shí)長(zhǎng)從15min縮短到1min,速度提升15倍。
統(tǒng)一集群管理,99.999%高可靠
存儲(chǔ)集群安全可靠:華為OceanStor AI存儲(chǔ)單集群多Storage Pool的方案,管理面合一,數(shù)據(jù)面分離,通過(guò)數(shù)據(jù)面隔離避免AI集群故障擴(kuò)散;同時(shí)通過(guò)亞健康管理、大比例EC等進(jìn)一步提升存儲(chǔ)可靠性,單集群可靠性達(dá)99.999%。
全生命周期管理TCO降低30%
數(shù)據(jù)治理成本低:統(tǒng)一數(shù)據(jù)湖管理,GFS全局文件系統(tǒng),無(wú)損多協(xié)議互通,免除數(shù)據(jù)孤島,數(shù)據(jù)全局可視、可管,高效流動(dòng),跨域調(diào)度效率提升3倍,數(shù)據(jù)零拷貝,端到端加速AI模型開發(fā);千億元數(shù)據(jù)秒級(jí)檢索,智能識(shí)別數(shù)據(jù)熱度,精準(zhǔn)分級(jí),實(shí)現(xiàn)存儲(chǔ)系統(tǒng)性能與容量均衡。
面向未來(lái)更大規(guī)模算力集群,華為與科大訊飛聯(lián)合打造中國(guó)首個(gè)超大規(guī)模算力平臺(tái)AI數(shù)據(jù)湖存儲(chǔ)底座,借助海量數(shù)據(jù)和知識(shí)加速科大訊飛星火認(rèn)知大模型持續(xù)進(jìn)化,共建“讓機(jī)器能聽會(huì)說(shuō),能理解會(huì)思考,用AI建設(shè)美好世界”的美好愿景!
(來(lái)源:華為企業(yè)業(yè)務(wù))