AI(人工智能)浪潮不斷向前,作為AI三駕馬車之一,算力需求始終如影隨形。


近日,新京報貝殼財經(jīng)記者跟隨工信部新聞中心走訪了河南鄭州多家服務器廠商、大模型公司和算力中心。在走訪中,記者發(fā)現(xiàn),液冷技術正被算力行業(yè)青睞,出于價格成本等原因暫未全面推行,不少算力中心仍是液冷與風冷“兩條腿走路”。另外,超級計算和量子計算均有望進入商業(yè)算力供給體系。只不過,量子計算商業(yè)化仍需等待,超級計算地方中心已能夠?qū)崿F(xiàn)日常50%左右的利用率。


在“東數(shù)西算”工程下,河南正在打造中部算力高地。9月27日至29日,2024中國算力大會將落地鄭州。據(jù)河南省通信管理局黨組成員、一級巡視員孫力透露,中國算力平臺(河南)將在本屆算力大會上正式開通,算力規(guī)模達到4.2EFLOPS(floating-point operation per second,每秒浮點運算次數(shù))。


液冷成行業(yè)趨勢,服務器只奔著某個單點方向前進未必成功


光模塊、AI服務器、AI芯片、交換機、液冷設備組成AI算力五大硬件設備?;贏I訓練、推理和應用深入產(chǎn)生的算力需求,AI服務器將迎來高速增長時期。市場研究機構TrendForce集邦咨詢預估,2024年AI服務器出貨量將達167萬臺,年增長率為41.5%,產(chǎn)值將達1870億美元,占整體服務器高達65%。


記者在走訪中觀察到,不少AI服務器廠商將提供定制大模型或相關服務作為新的業(yè)務增長點。例如,浪潮信息和新華三都開發(fā)了各自的大模型,超聚變數(shù)字技術有限公司(以下簡稱:超聚變)在云上增加一層操作系統(tǒng)對大模型進行調(diào)優(yōu),但超聚變董事、公共及政府事務部總裁李翔宇表示,從目前的銷售額來看,服務器等硬件業(yè)務的占比仍更多。


通常,AI服務器采用“CPU+加速芯片”的架構形式,可分為:CPU+GPU、CPU+FPGA、CPU+ASIC等混合架構,在進行模型訓練和推理時效率更高。由于散熱需求強烈,CPU+GPU的服務器也逐步采用液冷制冷方式。


與傳統(tǒng)服務器采用的風冷技術相比,液冷技術具有高效散熱、節(jié)能降耗等優(yōu)勢,現(xiàn)已成為服務器行業(yè)發(fā)展趨勢。2023年,國內(nèi)服務器頭部廠商浪潮信息宣布要“All in 液冷”;中國移動、中國電信、中國聯(lián)通三大運營商聯(lián)合發(fā)布《電信運營商液冷技術白皮書》并提出將在2025年開展液冷技術規(guī)模應用,實現(xiàn)50%以上數(shù)據(jù)中心項目應用液冷技術。


超聚變數(shù)字技術有限公司工作人員在講解液冷設備工作流程。新京報貝殼財經(jīng)記者 韋英姿 攝


IDC數(shù)據(jù)顯示,2023年上半年國內(nèi)液冷服務器市場占比前三的廠商分別為:浪潮信息、寧暢和超聚變,共占據(jù)七成以上的市場份額。未來國內(nèi)服務器廠商是否可能憑借液冷技術實現(xiàn)生態(tài)位的改變?


對此,李翔宇表示,新技術需要考慮市場空間。他認為,行業(yè)在發(fā)展過程中可能涌現(xiàn)新的變化、客戶需求和技術路徑,企業(yè)向某個單點方向走未必能保證成功?!捌髽I(yè)需要堅定地堅持業(yè)務戰(zhàn)略,才能在各種變化下快速適應轉(zhuǎn)化,實現(xiàn)突破。”


另外,浪潮信息河南區(qū)云裝備銷售部副總經(jīng)理賀磊透露,在2024中國算力大會上,浪潮信息將帶來新一代液冷的MDC(元數(shù)據(jù)控制器)、液冷多元算力AI服務器等產(chǎn)品。


“目前液冷產(chǎn)業(yè)推廣過程中面臨的一個重要課題是如何在液冷數(shù)據(jù)中心的建設成本和投資回報率,以及運維安全性上做到均衡?!盜DC中國服務器市場研究經(jīng)理辛一分析稱,這需要產(chǎn)業(yè)相關組織、機構、企業(yè)及合作伙伴在標準制定、成本控制、技術創(chuàng)新等方面共同努力,加大投資和配套設施建設力度。


他預計,液冷行業(yè)將迎來“剛需”放量元年。根據(jù)IDC數(shù)據(jù),互聯(lián)網(wǎng)行業(yè)是2023年國內(nèi)液冷服務器市場最大買家,占整體市場的46.3%,有望在未來幾年持續(xù)加大采購力度;此外,電信運營商、泛政府用戶也是未來液冷需求的主要來源。


算力資源走向多元化,異構計算調(diào)度難尚未出現(xiàn)便捷、通用的解決方案


2023年10月,工信部等六部門印發(fā)了《算力基礎設施高質(zhì)量發(fā)展行動計劃》(以下簡稱:《行動計劃》)并要求構建通用、智能和超級算力協(xié)同發(fā)展的供給體系。當前,國內(nèi)算力平臺的算力資源多為混合型,通常包括通用計算、智能計算、超級計算,有的甚至已經(jīng)宣布接入了量子計算機。


鄭州人工智能計算中心(中國聯(lián)通中原數(shù)據(jù)基地)機房。新京報貝殼財經(jīng)記者 韋英姿 攝


與普通計算相比,超級計算和量子計算的計算速度更快、確定性更高。接入算力體系后,超級計算是否會形成對普通計算的“降維打擊”?河南移動規(guī)劃技術部李仲剛分析稱,兩種計算各自的領域不同,在諸如工廠識別螺絲釘好壞等數(shù)據(jù)量較小的項目上使用超算“意義不大”。


與超級計算相比,量子計算完全進入智算領域還有較長的路要走。一位河南國科量子通信網(wǎng)絡有限公司工作人員表示,量子計算機離作為算力領域基礎設施的商業(yè)運用還有一段距離,目前仍處于“沒走出實驗室”的階段。


另外,量子計算可能的安全風險也成為商業(yè)化前需要解決的問題。國科量子通信網(wǎng)絡有限公司副總裁、河南國科量子通信網(wǎng)絡有限公司董事長、河南國科量子通信技術應用研究院院長王家勇表示,量子計算對目前一些非對稱的密碼算法會產(chǎn)生較大的安全威脅。但他也表示,離這類安全風險到來還有相當長一段時間,“現(xiàn)在需要做好技術儲備,將現(xiàn)有密碼體系遷移到抗量子計算的密碼體系中?!?/p>


根據(jù)《行動計劃》要求,到2025年,計算力方面,算力規(guī)模超過300EFLOPS,智能算力占比達到35%。據(jù)工信部等六部門測算,1EFLOPS約為5臺天河2A或50萬顆主流服務器CPU或200萬臺主流筆記本的算力輸出。為提升算力調(diào)度效率,不少硬件企業(yè)和算力中心都建成了算力調(diào)度平臺。據(jù)記者了解,國家超算鄭州中心能夠提供的超算峰值是100P。


近年來,隨著越來越多異構芯片被應用于全國各地算力集群,異構計算難以被有效利用和調(diào)度的問題日益凸顯,逐漸成為中國大模型產(chǎn)業(yè)發(fā)展瓶頸?!爱悩嬘嬎惚旧淼牟⑿姓{(diào)度就是一個比較難的課題?!眹页汔嵵葜行闹魅沃?、副教授劉潤杰表示,異構計算在研究串行算法如何變成并行算法的問題,首先要確保算法的正確性,“因為并行化后可能會出錯”,其次還要保證它的高效性。


“機器、加速卡等不同,所調(diào)度的算法也不一樣,因此一個計算要針對不同的設備進行優(yōu)化,這些工作比較復雜,目前沒有比較便捷、通用的途徑,還需要各方努力研究?!眲櫧苷f。


新京報貝殼財經(jīng)記者 韋英姿

編輯 岳彩周

校對 付春愔