人工智能產(chǎn)業(yè)的蓬勃發(fā)展推動(dòng)算力規??焖僭鲩L(cháng)、算力結構不斷優(yōu)化,多元化算力發(fā)展趨勢日益凸顯。近日,紫光股份旗下新華三集團在以“×AI”(乘AI)為主題的2024媒體與分析師溝通會(huì )上,重磅發(fā)布智算網(wǎng)絡(luò )解決方案,將充分發(fā)揮“算力×聯(lián)接”的倍增效應,以標準化聯(lián)接支撐多元算力釋放。新華三將通過(guò)對算力和聯(lián)接技術(shù)進(jìn)行最佳的調優(yōu)與配合,打造一張全面滿(mǎn)足異構算力需求的開(kāi)放性網(wǎng)絡(luò ),為智算中心不同規模的算力聯(lián)接提供最優(yōu)選擇。
多元算力成主流 開(kāi)放網(wǎng)絡(luò )價(jià)值凸顯
AI大模型的火熱帶動(dòng)各類(lèi)專(zhuān)用算力芯片需求激增,智能算力占比逐步提升,多元異構計算體系成為主流模式。在實(shí)際場(chǎng)景中,算力體系已形成龐大的生態(tài)系統,涉及大量計算單元內部的信息交互,網(wǎng)絡(luò )不僅是連接算力單元的紐帶,更決定了算力調度、數據流通的效率與穩定性。對此,新華三集團認為,解決CPU、GPU、網(wǎng)卡、光模塊等異構組件間的互聯(lián)問(wèn)題,打造開(kāi)放解耦、靈活擴展的網(wǎng)絡(luò )聯(lián)接,是構建多元融合智算體系的關(guān)鍵所在。通過(guò)將網(wǎng)絡(luò )平臺和智算平臺解耦,可以充分發(fā)揮算力生態(tài)中各領(lǐng)域的優(yōu)勢,實(shí)現資源共享和高效協(xié)作,幫助客戶(hù)享有先進(jìn)的AI智算平臺、優(yōu)秀的網(wǎng)絡(luò )設備和高品質(zhì)的聯(lián)接介質(zhì)。此外,用戶(hù)可利用以太網(wǎng)開(kāi)放標準特質(zhì),逐步構建大規模智算集群,實(shí)現與現有設施的無(wú)縫互通,并根據業(yè)務(wù)需求靈活擴展升級。
智算網(wǎng)絡(luò )解決方案 探索打通異構算力的開(kāi)放網(wǎng)絡(luò )
為滿(mǎn)足更加嚴苛的智算需求,新華三集團探索全新智算網(wǎng)絡(luò )解決方案,以靈活多樣的組網(wǎng)方式、以及全場(chǎng)景網(wǎng)絡(luò )調優(yōu)技術(shù)滿(mǎn)足不同場(chǎng)景、不同規模的智算中心網(wǎng)絡(luò )建設需求,全面增強網(wǎng)絡(luò )對于多元異構算力的承載能力。
●業(yè)界最全產(chǎn)品布局支持全模型組網(wǎng):智算網(wǎng)絡(luò )建設重視開(kāi)放性、可部署性和擴展性,要求產(chǎn)品形態(tài)多樣且支持開(kāi)放協(xié)議。新華三擁有支持200G/400G/800G不同端口密度且形態(tài)豐富的交換機產(chǎn)品,支持單框單層、盒-盒兩層、框-盒兩層等多種靈活組網(wǎng)架構,提供了開(kāi)放性、兼容性、擴展性、穩定性極強的網(wǎng)絡(luò )環(huán)境和端到端異構互聯(lián)保障。
●全局負載均衡帶來(lái)極致帶寬利用率:傳統負載均衡技術(shù)難以適應AIGC集群訓練中通信流量擁塞敏感性高、低時(shí)延、高吞吐等需求,易導致負載分擔不均、整網(wǎng)吞吐下降等問(wèn)題,影響訓練效率。新華三提出SprayLink端網(wǎng)融合、LBN&DLB、FGLB全局負載均衡、分布式解耦機框DDC架構等在內的負載均衡技術(shù)組合,可提高網(wǎng)絡(luò )帶寬利用率至95%,實(shí)現全場(chǎng)景智算網(wǎng)絡(luò )調優(yōu)。
●數據面自愈技術(shù)實(shí)現微秒級故障收斂:網(wǎng)絡(luò )設備通常是轉控分離的,在發(fā)生故障時(shí),通過(guò)控制面進(jìn)行表項刷新、路徑重算后下發(fā)到數據面,實(shí)現故障收斂。而這種處理方式所消耗的時(shí)間,在智算場(chǎng)景下影響巨大。針對智算場(chǎng)景中遠端鏈路負載和故障檢測以及流量實(shí)時(shí)調整需求,新華三推出DPSH數據面自愈技術(shù),支持本地或遠端鏈路Down后的流量快速切換,整個(gè)流量切換周期從毫秒級降低至微秒級,用戶(hù)側對鏈路故障無(wú)感知。
為AI算力場(chǎng)景而生 算力集群交換機提升智算網(wǎng)絡(luò )整體可用性
為進(jìn)一步提升智算網(wǎng)絡(luò )整體可用性,新華三集團同步推出基于DDC架構(Disaggregated Distributed Chassis分布式解耦機框)的算力集群核心交換機H3C S12500 AI系列,旨在為用戶(hù)提供更具擴展性、更易運維管理、更具成本效益的分布式解耦機框方案。
作為專(zhuān)為AI算力場(chǎng)景設計的產(chǎn)品,H3C S12500 AI系列具備信元級負載均衡、原生無(wú)損、超大規模的優(yōu)勢。其基于信元交換實(shí)現GPU解耦,對任意流量模型均能達到最佳負載均衡效果,確保100%無(wú)損傳輸,且最大可支持32K(400G)GPU卡,擺脫了傳統框式設備端口容量上限。依托強大的生態(tài)解耦能力和優(yōu)秀的算力網(wǎng)絡(luò )性能,H3C S12500 AI系列可為用戶(hù)構建天然零丟包的無(wú)損網(wǎng)絡(luò ),提供自動(dòng)化部署以及NCF與NCP的自組網(wǎng)能力,新增網(wǎng)元上線(xiàn)即可用,并且在網(wǎng)元失效時(shí)實(shí)現微秒級的拓撲收斂速度,是異構GPU互聯(lián)的最佳選擇。
此外,在異構算力網(wǎng)絡(luò )的構建過(guò)程中,新華三將持續推進(jìn)服務(wù)器內、外部GPU聯(lián)接的標準化,實(shí)現異構GPU的智算集群,降低算力部署和應用的成本,并通過(guò)軟件生態(tài)的標準化,打通智算孤島,促進(jìn)資源共享與產(chǎn)業(yè)共同繁榮。
網(wǎng)絡(luò )是數字經(jīng)濟的載體,算力是數字經(jīng)濟的引擎,網(wǎng)絡(luò )與算力的相互協(xié)同,將更好的推動(dòng)數字經(jīng)濟蓬勃發(fā)展。面向AIGC時(shí)代的算力需求與挑戰,新華三集團將秉持“精耕務(wù)實(shí),為時(shí)代賦智慧”的理念,全力打造超高帶寬、超低時(shí)延、超高可靠的高品質(zhì)智算網(wǎng)絡(luò ),為百行百業(yè)的數智發(fā)展注入強勁動(dòng)能。
相關(guān)稿件