8月5日,全球權威AI性能評測組織公布最新的MLPerf? Storage v2.0基準測試結果。作為人工智能領域公認的存儲性能“全球標桿”測試,MLPerf? Storage由國際MLCommons組織制定,其結果被全球頂尖超算中心、云計算廠商和AI實驗室廣泛采用并認可。此次評測中,由國家超級計算濟南中心與華為技術有限公司協同研發優化的高性能存儲系統,在三項核心性能指標上刷新世界紀錄,位列全球第一。這意味著,在人工智能時代最核心的數據存儲與傳輸能力上,我國自主研發的技術已經走在了世界最前列。
簡單來說,這套系統就像是AI“超級大腦”的“數據高速公路”,負責把海量訓練數據不間斷地輸送到成百上千張“計算顯卡”中進行學習。它因速度之快、通道之多、單通道的承載能力之強創下多項新世界紀錄——在3D U-Net訓練測試中,單臺存儲設備的數據傳輸速度高達每秒698GiB/s,相當于1秒鐘傳完近700部高清電影;單位機架空間的傳輸能力達到每秒108GiB/s,也就是說同一個機架上的所有計算單元可以同時滿速獲取所需數據,不需排隊等待數據;單個客戶端的傳輸速度突破每秒104GiB/s,即便是一臺計算設備單獨工作,也能享受到全球最快的數據供應速度。三項核心指標全部位列世界第一,使我國在大規模AI訓練的數據吞吐領域邁入國際領先行列。
單存儲設備帶寬達698 GiB/s,全球最快,較第二名提升4倍以上
單位機架帶寬108 GiB/s,空間利用率全球領先,較第二名高約35%
單客戶端帶寬104 GiB/s,單機也能滿速運行,比第二名快約30%
除了“跑得快”,更難得的是,這套系統還解決了一個長期困擾大模型訓練的“瓶頸”——斷點續訓,也就是AI學習中途“存檔”和“讀檔”的能力。過去,存檔速度慢,就像一場長途旅行中汽車加油,如果加油慢、油槍少,所有車輛都得排長隊,浪費大量時間。而在AI大模型訓練中,這個過程叫做“Checkpointing”,即隨時保存訓練進度、以便中斷后快速恢復。濟南超算與華為團隊攻克了這一高并發讀寫下的性能瓶頸——在Llama3_70B模型訓練測試中,單客戶端的讀寫速度分別達到68.8 GiB/s和62.4 GiB/s,比國際同類技術快了6.7倍,相當于讓加油站的油槍數量和加油速度實現了跨越式提升,讓“加油”幾乎不再成為瓶頸,大幅縮短了大模型訓練時間,也降低了算力和運維成本。
Checkpointing讀寫速度全球領先,快過國際同類技術6.7倍
國家超級計算濟南中心主任王英龍介紹,雙方的合作始終聚焦于國產化算力基礎設施的核心需求,從存儲系統的橫向擴展,到與GPU算力的高效協同,再到數據安全與韌性保障,均取得了突破性進展。目前,這套領先的高性能存儲系統已經具備EB級容量擴展能力,可支持多達4096張算力卡協同工作,并通過多維數據管理技術讓數據流動效率提升10倍。同時,它在綠色節能方面也做出了創新,系統將高密度存儲介質與低能耗設計相結合,在大幅提升性能的同時,減少了能源消耗和碳排放,為可持續發展的AI算力中心建設提供了范例。
自2020年合作啟動以來,濟南超算與華為存儲團隊堅持“科研攻關+產業應用”雙輪驅動,先后發布《數據密集型超算應用白皮書》,共同參與IO500國際排名,多次在全球舞臺展示國產存儲技術的實力。本次MLPerf測試的佳績,不僅證明國產存儲系統已能從容應對萬億參數級大模型的訓練需求,還將在醫療影像分析、氣候模擬、遙感數據處理等關系民生與國家安全的重要領域廣泛應用。
業內專家評價,這一成績不僅是一項技術突破,更是中國在全球人工智能基礎設施競爭中的一次有力沖刺。未來,濟南超算與華為將繼續在前沿領域深化合作,讓人工智能更快、更穩、更綠色地賦能千行百業。