近期,中國移動(dòng)第四屆科技周暨戰略性新興產(chǎn)業(yè)共創(chuàng )發(fā)展大會(huì )正式啟動(dòng)。中國移動(dòng)攜手產(chǎn)學(xué)研用各方合作伙伴,以“澎湃創(chuàng )新力 戰新共未來(lái)”為主題,匯聚院士學(xué)者、產(chǎn)業(yè)大咖、業(yè)界專(zhuān)家,圍繞云和算力網(wǎng)絡(luò )、人工智能、6G、大數據、能力中臺、安全等領(lǐng)域,聚焦科創(chuàng )前沿,共商協(xié)同創(chuàng )新新模式,共謀戰新產(chǎn)業(yè)發(fā)展新未來(lái)。
其中,庫瀚科技協(xié)辦了以“多樣性算力”為主題的分論壇,該論壇聚焦算力基礎設施領(lǐng)域,與各界合作伙伴開(kāi)展技術(shù)創(chuàng )新分享和實(shí)踐經(jīng)驗交流,促進(jìn)技術(shù)生態(tài)繁榮,共同推動(dòng)數字經(jīng)濟高速發(fā)展。
(圖片來(lái)源:中國移動(dòng))
庫瀚科技軟件架構師邱重陽(yáng)在本次論壇中,分享了庫瀚在全RISC-V架構下高性能存儲軟件的實(shí)踐與探索
庫瀚分享:挑戰與趨勢
根據IDC預測數據,2025年全球數據量將增長(cháng)到175ZB,中國將成為全球最大數據圈( 48.6ZB ),存算比趨近1:1,存儲與計算同等重要?;A設施(服務(wù)器)市場(chǎng)近萬(wàn)億,目前主導這個(gè)市場(chǎng)的還是X86 CPU通用計算為核心的生態(tài)。而X86 CPU的核心技術(shù)被境外壟斷,價(jià)格昂貴的同時(shí)不符合國內信創(chuàng )趨勢。摩爾定律在服務(wù)器芯片上逐漸失效,但是高速的存儲、網(wǎng)絡(luò )設備還在快速發(fā)展,通用CPU很難再同時(shí)處理計算、網(wǎng)絡(luò )、存儲等需求。
在此背景下,數據中心存算一體架構一直面臨兩個(gè)主要挑戰:
第一個(gè)挑戰是數據存儲生命周期和服務(wù)器更新周期不同,存算一體的服務(wù)器架構無(wú)法使存算獨立擴容,服務(wù)器的更新?lián)Q代由處理器的升級周期決定,一般是2~3年更換,與數據存儲5~10年的生命周期有較大區別,兩者之間巨大的差異導致系統資源大量浪費,增加數據遷移丟失風(fēng)險。
另外一個(gè)挑戰是,傳統分布式存儲架構使得性能和存儲資源利用率難以兼得,通常情況下,性能型存儲通常采用三副本模式,得盤(pán)率僅僅約30%,容量型存儲采用EC模式提升得盤(pán)率,但同時(shí)增加了CPU、網(wǎng)絡(luò )的開(kāi)銷(xiāo),導致存儲系統整體性能受損。
數字經(jīng)濟時(shí)代,多樣應用推動(dòng)生產(chǎn)進(jìn)步,當下比較熱有ChatGPT、自動(dòng)駕駛等,這些應用的背后都在消耗巨大的算力。這些不同的應用需要不同的算法,特定的算法匹配特定的算力來(lái)處理才能發(fā)揮更好的能效比。
業(yè)界涌現出越來(lái)越多的數據處理單元(DPU)和基礎設施處理單元(IPU)專(zhuān)用芯片,在數據流處理路徑上取代通用處理器,提升算力能效比。面對新的業(yè)務(wù)需求,結合計算、網(wǎng)絡(luò )和存儲的新技術(shù)發(fā)展趨勢,新型存算分離的Diskless架構將重新定義數據中心基礎設施。Top 廠(chǎng)商積極布局Diskless 架構,通過(guò)IPU對接共享的閃存盤(pán)框。
我們可以說(shuō):傳統存儲是存儲1.0時(shí)代,分布式存儲開(kāi)啟存儲2.0時(shí)代,Diskless正在帶領(lǐng)我們走進(jìn)存儲3.0時(shí)代。
策略與思路
·思路一:存儲服務(wù)器使用存儲專(zhuān)用芯片
目前芯片龍頭已經(jīng)推出的各類(lèi)智能網(wǎng)卡形態(tài)數據處理芯片,主要是滿(mǎn)足云廠(chǎng)商自定義的CPU算力卸載需求。頭部廠(chǎng)商都在專(zhuān)用數據處理芯片的方向,但是目前看到的數據處理芯片側重于計算服務(wù)器側網(wǎng)絡(luò )、計算虛擬化卸載等問(wèn)題,存儲服務(wù)器更強調IO加速、EC\壓縮的優(yōu)化,低功耗、低成本的需求?;诖鎯?zhuān)用芯片的存儲服務(wù)器是去x86架構、提升算力能效比、降低存儲服務(wù)器成本的一個(gè)有效手段,當然也同時(shí)需要對應存儲基礎軟件來(lái)與之配套。
·思路二:通過(guò)數據分層機制來(lái)解決存儲性能和資源的有效利用率難以兼得的矛盾
數據分層存儲已經(jīng)是一個(gè)比較老話(huà)題了,但就當前數據中心Diskless架構的趨勢來(lái)說(shuō),數據分層本身使用了兩層數據分離存儲的策略,這和Diskless數據拉遠池化的理念更加契合。一般來(lái)說(shuō),數據分層機制,通過(guò)副本機制對外提供統一的高性能存儲服務(wù);通過(guò)EC策略進(jìn)行數據存儲使得存儲系統整體得盤(pán)率更高。通過(guò)兩層架構的技術(shù)整合,以提高存儲系統整體的存儲性能和資源的有效利用率。
·思路三:通過(guò)軟硬融合的設計提升存儲系統資源的有效利用率
首先,目前SSD訪(fǎng)問(wèn)接口仍然是基于塊語(yǔ)義的隨機覆蓋寫(xiě),這并不契合NAND Flash的特性,NAND Flash是追加寫(xiě)、擦除后寫(xiě),SSD為了適配傳統塊語(yǔ)義的接口,不得不在內部實(shí)現轉換層FTL,增加了元數據管理、GC、OP空間預留等資源的開(kāi)銷(xiāo)。為了解決這個(gè)問(wèn)題,庫瀚提出了open channel技術(shù),以及繼承于它的zoned namespace技術(shù),這些技術(shù)突破傳統的標準硬件接口,打通設備與應用層之間的信息屏障。
其次是存儲側的計算卸載,也可以說(shuō)是近存儲計算。存儲服務(wù)器側的數據壓縮、EC等算法,不適合利用通用處理器來(lái)計算,將其卸載到專(zhuān)用處理器可以顯著(zhù)提升能效比。
實(shí)踐與探索
庫瀚打造的存儲平臺是從底層SSD 主控芯片、SSD 固件、存儲服務(wù)器主控到存儲底層基礎軟件全技術(shù)棧打通的一個(gè)存儲架構,在IO鏈路上基于全RISC-V架構主控平臺,軟硬融合設計的全閃存存儲平臺。
庫瀚兩顆RISC-V芯片——Aurora SSD主控、eSPU覆蓋從應用到存儲全流程,eSPU主板主控形態(tài)支持實(shí)現無(wú)x86架構的存儲服務(wù)器,eSPU智能網(wǎng)卡形態(tài)面向數據服務(wù)基礎設置場(chǎng)景;Aurora SSD主控支持實(shí)現PCIE 5.0/4.0等多型號的高性能企業(yè)級固態(tài)硬盤(pán)。
庫瀚StorEngine 軟固件平臺是一套軟件定義存儲生態(tài)的高性能分布式存儲軟件基礎計算模組,也是兩顆RISC-V芯片平臺的存儲基礎軟件,以助力數據中心實(shí)現在現有硬件平臺、eSPU/Aurora硬件平臺下發(fā)揮業(yè)界領(lǐng)先的性能。
StorEngine 既可以運行在x86\ARM平臺上,也可以運行在eSPU(RISC-V)平臺上。
庫瀚StorEngine 采用Diskless 存算分離架構,把存儲資源拉遠池化,以替換傳統存儲中的本地盤(pán);通過(guò)高密度的SPU盤(pán)框 + 存儲計算分開(kāi)擴容的能力,來(lái)降低數據中心整體成本。
庫瀚StorEngine 使用數據分層和統一zone設計,性能層和容量層的分層設計使得系統在提升得盤(pán)率的同時(shí),能夠提供高性能存儲服務(wù);統一zone架構,使StorEngine兼容不同介質(zhì)存儲設備,全局存儲資源以zone為單位進(jìn)行分配,實(shí)現全局FTL,使SSD的磨損均衡可以在全局作用,同樣可以延長(cháng)SSD的壽命。
庫瀚與中移已就存儲系統項目開(kāi)展了合作與探索。中移ESSD是一套全自研的高性能全閃分布式存儲系統,單卷可達百萬(wàn) IOPS以上;庫瀚StorEngine RPC組件KRPC在中移動(dòng)ESSD高性能場(chǎng)景下的應用,提升了RPC組件效率,降低了硬件資源的開(kāi)銷(xiāo)。單卷客戶(hù)端所需的CPU核心數量從改造前的21個(gè)下降為改造后的5個(gè),與此同時(shí)單路IO延遲也從600us下降到270us,整個(gè)資源的利用率得到了顯著(zhù)的提高,存儲系統的長(cháng)尾延遲也有所改善。
相關(guān)稿件