今年初,DeepSeek面世并帶動大模型產品“深度思考”能力加速普及,大模型技術不斷提升。
為了厘清大模型應用程序落地傳媒行業(yè)的真實情況,呈現(xiàn)科技進步如何提質增效,7月10日,新京報AI研究院再度聯(lián)合中國經濟傳媒協(xié)會發(fā)布《中國AI大模型測評報告(第二期)》,通過對8款主流大模型產品在五個核心維度(文本生成、長文本總結、語言翻譯、倫理判斷與事實核查、媒體信息檢索)16道題目的嚴格測試與專家評審,揭示了當前大模型在媒體實際工作場景中的能力現(xiàn)狀與差異。
測評結果顯示,通義、訊飛星火、文心一言、騰訊元寶以超過7500分的成績,分別位列總分榜第一至第四位,這些大模型均背靠“大廠”。相比之下,豆包、DeepSeek、Kimi和智譜清言則位列第五到第八位,三家大模型得分相對較低主要是在長文本總結能力上拉開了分差,且在實際測評中對上傳的一些文件無法完整閱讀,導致其在客觀題中顯著降低了分值。
隨著大模型應用普及,工作效率提升正在被看見,而梳理信息也成為其最強大的功能之一。在媒體信息檢索能力方面,文心一言、通義和騰訊元寶得分位列前三位,測評中,三款模型不僅準確提供了相關信息,還避開了不實信息,因此得分較高。相比之下,Kimi、DeepSeek、豆包和智譜清言的搜索結果“踩坑”不少虛假信息,導致得分較低。
文本生成能力考查的是對于媒體行業(yè)最為重要的“寫稿”能力,也是本次測評的關鍵維度之一。測評以四道考題考查了大模型對快訊、評論、深度和視頻腳本的完成能力,通義、訊飛星火、DeepSeek排名前列,而文心一言、Kimi和智譜清言則排名靠后。測評中,寫作結構以及開場描寫、數據使用、深度解析等方面是否完善和專業(yè)均成為影響因素。
本次測評在維度上首次涉及倫理判斷能力。結果顯示,通義、文心一言、豆包和DeepSeek得分均在1500分以上,分別位列第一至第四位,騰訊元寶則墊底。針對情感關系中“越界”問題,大多數大模型都進行了倫理方面的提醒,如不可進行感情操控,體現(xiàn)了大模型具有一定的價值判斷。不過,在測評中,騰訊元寶和文心一言則被問題“帶偏”,并在回答中爆粗口,得分也被拉低。
在一份冗長的材料中找到需要的內容,長文本分析正成為媒體工作者的“剛需”,這也讓大模型更凸顯優(yōu)勢。2024 年,Kimi也憑借其包括長文本在內的一眾能力獲得了資本的青睞。在長文本總結能力排名中,通義、文心一言、訊飛星火位列前三,得分均超過1500。測評發(fā)現(xiàn),大模型的長文本能力受到了兩項制約:容量越大的文件耗費的tokens越多,成本就越大,因此對于“上傳兩份財報并進行對比”的測試題目,DeepSeek、Kimi、智譜清言分別只能上傳文件的18%、52%、41.75%,得分也因此較低。
值得一提的是,成功上傳了兩份財報的大模型中,通義、訊飛星火、騰訊元寶不僅準確提煉了相關公司的營業(yè)收入、凈利潤、毛利率等數據,騰訊元寶使用混元大模型還生成了對比表格,結果一目了然。相比之下,文心一言雖然也生成了表格,但總收入數據提取出現(xiàn)錯誤。
語言翻譯能力一直是大模型的標桿性能力,在實際應用中最為廣泛。結果顯示,訊飛星火、騰訊元寶、通義排名前三。
本測評旨在從五個不同維度評估大語言模型產品針對媒體行業(yè)實際工作場景的能力表現(xiàn),共計生成了128個結果,測評方法采用了Elo 機制(一種通過數學公式計算競技者隱藏分,以評估和匹配競技者的機制),共有超過80位評委參與打分。
測評表明,大模型在媒體行業(yè)的應用潛力巨大,尤其在信息檢索、文本生成和翻譯方面展現(xiàn)出顯著價值。頭部“大廠”模型憑借資源和技術積累,在綜合能力和穩(wěn)定性上優(yōu)勢明顯。然而,面臨的挑戰(zhàn)依然嚴峻,包括虛假信息識別能力亟待提升,以避免傳播誤導;長文本處理的容量限制和成本問題制約了實用價值;倫理安全防線需持續(xù)加固,防止被惡意誘導;文本生成的深度和專業(yè)性仍需向資深媒體人的水準看齊。
報告認為,在選擇和使用大模型工具時,媒體從業(yè)者應該優(yōu)先考慮綜合表現(xiàn)穩(wěn)定、安全可靠的頭部模型。在進行事實核查時,需對模型檢索結果保持警惕,特別是熱點或爭議話題。此外,處理超長文檔或復雜分析任務時,需確認模型的實際處理能力,避免因容量限制導致失敗。
新京報貝殼財經記者 韋博雅 羅亦丹
編輯 王進雨
校對 穆祥桐