首頁 > 科技

“北京造”大模型GLM-4.5開源綜合性能世界領(lǐng)先

2025-07-30 22:36:48 記者：羅亦丹

新京報貝殼財經(jīng)訊（記者羅亦丹）7月28日晚，北京智譜華章科技股份有限公司（以下簡稱“智譜AI”）發(fā)布其新一代旗艦大模型GLM-4.5，這是一款專為智能體應(yīng)用打造的基礎(chǔ)模型，在復(fù)雜推理、代碼生成及智能體交互等通用能力上實現(xiàn)能力融合與技術(shù)突破，綜合測試性能已躋身全球領(lǐng)先行列。

這款新模型的發(fā)布，代表了AI邁向通用人工智能的一次重要轉(zhuǎn)變。它不再滿足于扮演一個被動回答問題的“聊天機器人”，而是要成為能夠理解復(fù)雜目標(biāo)、自主規(guī)劃并執(zhí)行多步驟任務(wù)的“全優(yōu)生”。例如，模型能夠勝任全棧開發(fā)任務(wù)，一鍵生成較為復(fù)雜的應(yīng)用、游戲、交互網(wǎng)頁。在實際例子中，用戶通過z.ai使用該模型時，僅用一句簡單的指令，就可讓GLM-4.5獨立開發(fā)出具備搜索功能的“谷歌”網(wǎng)站、可以發(fā)彈幕的“B站”，甚至直接上線一個完整的“Flappy Bird”小游戲。

在性能評估中，GLM-4.5的表現(xiàn)展示了其架構(gòu)優(yōu)勢。在涵蓋研究生水平推理和復(fù)雜軟件工程解題等12項全球公認(rèn)的硬核測試中，其綜合得分位列全球第三，在所有國產(chǎn)模型和開源模型中均排名第一。

大型語言模型性能評估表，包含智能體、推理與編碼基準(zhǔn)測試數(shù)據(jù)（圖源：智譜）

該款旗艦大模型發(fā)布僅十小時，便引發(fā)全球外媒關(guān)注。價格因素同樣是關(guān)注焦點，報道普遍聚焦該模型 “成本更低、性能更優(yōu)” 的特性，部分媒體還對其參數(shù)進行了詳細(xì)解析與同類對比。目前該系列模型API調(diào)用價格低至輸入0.8元/百萬tokens、輸出2元/百萬tokens，遠(yuǎn)低于市場主流價格。

28日模型發(fā)布后不到兩個小時，X平臺就在首頁推薦了這款中國大模型。CNBC 28日報道稱：“中國企業(yè)正在研發(fā)的人工智能模型不僅智能化水平提升，使用成本也持續(xù)降低，這與深度求索（DeepSeek）當(dāng)年震動市場的突破核心優(yōu)勢相呼應(yīng)?！?路透社28日在報道中提到，作為中國 “AI 六小虎” 之一的智譜，自今年6月被OpenAI“點名”后便備受關(guān)注。彭博社表示，OpenAI的挑戰(zhàn)者智譜AI發(fā)布開源模型，試圖在這個蓬勃發(fā)展的行業(yè)中搶占制高點。另一家美國知名科技媒體VentureBeat則在文章中指出：“GLM-4.5的發(fā)布為企業(yè)團隊提供了一個可行的、高性能的基礎(chǔ)模型。對于平衡創(chuàng)新和運營限制的團隊來說，這是一個令人信服的選擇?！卑l(fā)布后不到12小時，GLM-4.5模型已經(jīng)位列國際開源社區(qū)Hugging-Face榜單全球第二?！董h(huán)球時報》針對該款模型進行整版報道，受到國內(nèi)外業(yè)界高度關(guān)注。

美國科技網(wǎng)站Techi 認(rèn)為，中國AI發(fā)展正清晰呈現(xiàn) “易獲取” 的趨勢：“智譜努力與深度求索、OpenAI等行業(yè)巨頭同臺競技。隨著更多企業(yè)推出開源模型并壓低價格，中國正逐步成為全球AI競爭的核心參與者，力爭占據(jù)領(lǐng)先地位。未來幾個月，這些快速變化將帶來何種影響——是催生新的監(jiān)管政策，還是推動新的技術(shù)創(chuàng)新，仍有待觀察?！?/p>

受到關(guān)注的除了這款大模型的性能，還有一個最大亮點是這是首款原生融合模型，首次在單個模型中實現(xiàn)將推理、編碼和智能體能力原生融合，以滿足智能體應(yīng)用的復(fù)雜需求。

大語言模型的目標(biāo)是在廣泛領(lǐng)域達到人類認(rèn)知水平。然而，現(xiàn)有模型仍然算不上真正的通用模型：有些擅長編程，有些精于數(shù)學(xué)，有些在推理方面表現(xiàn)出色，但沒有一個能在所有任務(wù)上都達到最佳表現(xiàn)。GLM-4.5正是朝著統(tǒng)一各種能力這一目標(biāo)努力，力求在一個模型中集成所有這些不同的能力。大模型的下一個范式，一定是把各種能力整合到一起，成為一個“全優(yōu)生”。

其次這款模型擁有更高的參數(shù)效率。GLM-4.5的參數(shù)量僅為一些主流模型的一半甚至三分之一，但在多項標(biāo)準(zhǔn)基準(zhǔn)測試中表現(xiàn)得更為出色。在衡量模型代碼能力的SWE-bench Verified 榜單上，GLM-4.5系列位于性能/參數(shù)比帕累托前沿，這表明在相同規(guī)模下，GLM-4.5系列實現(xiàn)了最佳性能。