AI(人工智能)時(shí)代同樣也是算力的時(shí)代。國(guó)內(nèi)外的科技企業(yè)、電信運(yùn)營(yíng)商紛紛“卷”起了萬卡乃至超萬卡,但生態(tài)兼容、異構(gòu)計(jì)算等難題也成為行業(yè)必須翻越的高山。


9月28日,在2024中國(guó)算力大會(huì)開幕式期間,中國(guó)工程院院士劉韻潔接受新京報(bào)貝殼財(cái)經(jīng)等媒體采訪時(shí)表示,短時(shí)間內(nèi)國(guó)內(nèi)端點(diǎn)GPU仍無法與國(guó)外競(jìng)爭(zhēng)。彌補(bǔ)短板的可能辦法是建設(shè)算力網(wǎng)絡(luò)“把整個(gè)算力練起來”,發(fā)揮GPU集群效果。


另外,他指出,不能簡(jiǎn)單判斷哪類企業(yè)建設(shè)算力網(wǎng)絡(luò)更有優(yōu)勢(shì),主要還得通過技術(shù)評(píng)判?!翱茨愕募夹g(shù)能不能使用、怎么發(fā)展,看你的創(chuàng)新、走的路徑是不是符合需要。”對(duì)于算力成本問題,他仍強(qiáng)調(diào)“要用新技術(shù)解決”。


目前,劉韻潔研究的確定性網(wǎng)絡(luò)技術(shù)能節(jié)省60%到70%的成本,他聯(lián)合其他機(jī)構(gòu)推出的算網(wǎng)調(diào)度項(xiàng)目,能夠?qū)崿F(xiàn)多個(gè)異地訓(xùn)練達(dá)到單點(diǎn)訓(xùn)練80%的效率。


中國(guó)工程院院士劉韻潔。受訪對(duì)象供圖。


建議走行業(yè)大模型賽道,要解決數(shù)據(jù)流通和算力利用率問題


“中國(guó)要走行業(yè)大模型這條路?!眲㈨崫嵲谥髦佳葜v中強(qiáng)調(diào)。他認(rèn)為,國(guó)內(nèi)通用大模型短期內(nèi)跟美國(guó)相比可能差距較大,并且追趕起來具有一定難度。


他提出,國(guó)內(nèi)模型企業(yè)如果能夠在通用大模型基礎(chǔ)上,把行業(yè)數(shù)據(jù)訓(xùn)練好、做好行業(yè)大模型,“完全可以走出中國(guó)道路”。他看好這一技術(shù)方向是因?yàn)樗J(rèn)為“中國(guó)行業(yè)數(shù)據(jù)最完整、全面”。


同時(shí)他表示,發(fā)展行業(yè)大模型需要政府、企業(yè)、資本一起努力。他向貝殼財(cái)經(jīng)記者表示,當(dāng)前,國(guó)內(nèi)數(shù)據(jù)的共享、流通程度仍有待加強(qiáng),這對(duì)訓(xùn)練行業(yè)大模型產(chǎn)生了影響,“大家還在摸索”哪類賽道更有前景。


2024中國(guó)算力大會(huì)披露的數(shù)據(jù)顯示,全國(guó)算力總規(guī)模達(dá)246 EFLOPS。據(jù)劉韻潔觀察,國(guó)產(chǎn)算力已具備一定規(guī)模,但利用率不算十分理想。


“算力想要服務(wù)實(shí)體經(jīng)濟(jì),得幾方都說好?!眲㈨崫嵳J(rèn)為,首先算力和網(wǎng)絡(luò)提供方要說好,“(因?yàn)椋┧鼈兺ㄟ^這些服務(wù)獲得了效益”。另外政府要說好,“(因?yàn)椋┱鉀Q了問題”。最后企業(yè)要說好,“(因?yàn)椋┢髽I(yè)通過使用算力、網(wǎng)絡(luò)提升了自身效率”。


他強(qiáng)調(diào),只是“一方說好”的效果并不持久,這代表行業(yè)沒有建立起算力生態(tài)?!安唤鉀Q生態(tài)問題,大家也用不起來(算力)?!?/p>


確定性網(wǎng)絡(luò)是未來算力網(wǎng)基礎(chǔ)技術(shù)之一,將節(jié)省60%-70%成本


“大模型訓(xùn)練要求數(shù)據(jù)無損傳輸,對(duì)丟包、抖動(dòng)和時(shí)延等網(wǎng)絡(luò)指標(biāo)提出要求?!眲㈨崫嵳f。他以國(guó)際數(shù)據(jù)標(biāo)準(zhǔn)為例解釋稱,丟包率達(dá)千分之五,傳輸效率將下降50%。


他進(jìn)一步解釋道,這就像在利用整條100G帶寬傳輸數(shù)據(jù)時(shí),只有50G的帶寬有用?!爱?dāng)下降到1%時(shí),它的效率約等于0,這就沒辦法訓(xùn)練、推理?!?/p>


網(wǎng)絡(luò)不丟包需要采用RDMA(遠(yuǎn)程直接內(nèi)存訪問)協(xié)議。該技術(shù)使計(jì)算機(jī)能夠直接訪問遠(yuǎn)程計(jì)算機(jī)的內(nèi)存,在內(nèi)存層面進(jìn)行數(shù)據(jù)傳輸而無需CPU頻繁介入,減少數(shù)據(jù)傳輸過程中收發(fā)端的處理延遲及資源消耗。


如何達(dá)到大模型訓(xùn)練、推理的數(shù)據(jù)傳輸標(biāo)準(zhǔn)?劉韻潔認(rèn)為,確定性網(wǎng)絡(luò)技術(shù)相對(duì)符合要求,他判斷它是“將來算力網(wǎng)的一項(xiàng)基礎(chǔ)技術(shù)”。劉韻潔透露,2022年他帶領(lǐng)團(tuán)隊(duì)在35個(gè)城市開通了確定性網(wǎng)絡(luò),目前城市數(shù)量已增至39個(gè),能做到端到端的時(shí)延、抖動(dòng)小于50微秒,實(shí)現(xiàn)零丟包。


在研發(fā)確定性網(wǎng)絡(luò)技術(shù)過程中,劉韻潔認(rèn)為最重要的技術(shù)突破是光電融合,它帶來帶寬利用率、電網(wǎng)成本能耗等方面的突破。


其中在成本方面,他以某一自動(dòng)駕駛企業(yè)為例解釋稱,該企業(yè)在全國(guó)4個(gè)地方20輛車每天產(chǎn)生的自動(dòng)駕駛數(shù)據(jù),先傳回上海再傳到貴陽訓(xùn)練,大概需要兩條10G和一條1G的電路,一年花費(fèi)一千萬元左右。


用不起怎么辦?改用硬盤收集數(shù)據(jù),在兩個(gè)城市間運(yùn)輸,考慮數(shù)據(jù)丟失、硬盤損害等情況,一年需要190萬元左右。而利用確定性網(wǎng)絡(luò),通過切片提供服務(wù),“一年12萬元就可以”。


劉韻潔強(qiáng)調(diào),這種程度的降本通過網(wǎng)絡(luò)共享實(shí)現(xiàn)。他在主旨演講中展示的數(shù)據(jù)顯示:已在試驗(yàn)網(wǎng)上運(yùn)行三個(gè)月以上,參數(shù)效率達(dá)95%以上,成本節(jié)省60%到70%。


發(fā)揮GPU集群效果彌補(bǔ)國(guó)產(chǎn)算力短板


算力網(wǎng)絡(luò)可能成為未來國(guó)產(chǎn)算力超越國(guó)外算力的方向嗎?劉韻潔表示,更準(zhǔn)確的理解是“彌補(bǔ)短板”。他認(rèn)為,短時(shí)間內(nèi),我們端點(diǎn)GPU仍無法與國(guó)外競(jìng)爭(zhēng)?!翱赡芪以趩蝹€(gè)方面比不過你,但發(fā)揮群體力量后有可能比得上。”他進(jìn)一步強(qiáng)調(diào),發(fā)揮GPU集群效果需要建設(shè)網(wǎng)絡(luò)“把整個(gè)算力練起來”。


他認(rèn)為,大模型可以走協(xié)同訓(xùn)練、分布式訓(xùn)練的路子,“10萬張卡在一個(gè)地方訓(xùn)練,電力會(huì)吃不消。”他透露,他的團(tuán)隊(duì)與中國(guó)科學(xué)院、國(guó)家超級(jí)計(jì)算無錫中心等機(jī)構(gòu)聯(lián)合推出的全國(guó)算力網(wǎng)絡(luò)調(diào)度項(xiàng)目,能夠達(dá)到分鐘級(jí)解決排隊(duì)問題的效果,多個(gè)異地訓(xùn)練達(dá)到單點(diǎn)訓(xùn)練80%的效率?!盎旧希植际接?xùn)練、協(xié)同訓(xùn)練是可行的?!?/p>


當(dāng)談及如何協(xié)調(diào)算力硬件與軟件發(fā)展關(guān)系時(shí),劉韻潔提出,軟硬件要結(jié)合、融合發(fā)展。


他表示,硬件生產(chǎn)消耗地球物理資源?!埃浚┫囊稽c(diǎn),資源就少一點(diǎn)?!倍浖鄬?duì)靈活,可以修改,對(duì)物理資源消耗較少,“這是一個(gè)很重要的社會(huì)發(fā)展理念”。另外,劉韻潔認(rèn)為,軟件開發(fā)消耗一定的人力資源,但應(yīng)用AI后,開發(fā)效率有所加快。他繼而提出,凡是能用軟件代替的部分,盡量發(fā)展軟件。


“但軟件不是萬能的,必須滿足算力所要求的硬件條件?!彼J(rèn)為,軟件無法承擔(dān)的部分要與硬件結(jié)合發(fā)展。


如何打造共享的算力網(wǎng)絡(luò)生態(tài)?劉韻潔建議,有關(guān)政府部門要把它協(xié)同、管理起來,企業(yè)和科研機(jī)構(gòu)等要密切配合?!斑@是一個(gè)整體工程,但目前大家都是自己悶頭干自己的?!?/p>


新京報(bào)貝殼財(cái)經(jīng)記者 韋英姿

編輯 林子

校對(duì) 劉軍