首頁 > 科技

8款模型5項傳媒能力測評：4款踩坑假消息，兩款未過“倫理關”

2025-07-10 19:22:22 記者：韋博雅羅亦丹編輯：王進雨

通義、訊飛星火、文心一言、騰訊元寶以超過7500分的成績，分別位列總分榜第一至第四位，這些大模型均背靠“大廠”。

今年初，DeepSeek面世并帶動大模型產品“深度思考”能力加速普及，大模型技術不斷提升。

為了厘清大模型應用程序落地傳媒行業(yè)的真實情況，呈現(xiàn)科技進步如何提質增效，7月10日，新京報AI研究院再度聯(lián)合中國經濟傳媒協(xié)會發(fā)布《中國AI大模型測評報告（第二期）》，通過對8款主流大模型產品在五個核心維度（文本生成、長文本總結、語言翻譯、倫理判斷與事實核查、媒體信息檢索）16道題目的嚴格測試與專家評審，揭示了當前大模型在媒體實際工作場景中的能力現(xiàn)狀與差異。

測評結果顯示，通義、訊飛星火、文心一言、騰訊元寶以超過7500分的成績，分別位列總分榜第一至第四位，這些大模型均背靠“大廠”。相比之下，豆包、DeepSeek、Kimi和智譜清言則位列第五到第八位，三家大模型得分相對較低主要是在長文本總結能力上拉開了分差，且在實際測評中對上傳的一些文件無法完整閱讀，導致其在客觀題中顯著降低了分值。

隨著大模型應用普及，工作效率提升正在被看見，而梳理信息也成為其最強大的功能之一。在媒體信息檢索能力方面，文心一言、通義和騰訊元寶得分位列前三位，測評中，三款模型不僅準確提供了相關信息，還避開了不實信息，因此得分較高。相比之下，Kimi、DeepSeek、豆包和智譜清言的搜索結果“踩坑”不少虛假信息，導致得分較低。

文本生成能力考查的是對于媒體行業(yè)最為重要的“寫稿”能力，也是本次測評的關鍵維度之一。測評以四道考題考查了大模型對快訊、評論、深度和視頻腳本的完成能力，通義、訊飛星火、DeepSeek排名前列，而文心一言、Kimi和智譜清言則排名靠后。測評中，寫作結構以及開場描寫、數據使用、深度解析等方面是否完善和專業(yè)均成為影響因素。

本次測評在維度上首次涉及倫理判斷能力。結果顯示，通義、文心一言、豆包和DeepSeek得分均在1500分以上，分別位列第一至第四位，騰訊元寶則墊底。針對情感關系中“越界”問題，大多數大模型都進行了倫理方面的提醒，如不可進行感情操控，體現(xiàn)了大模型具有一定的價值判斷。不過，在測評中，騰訊元寶和文心一言則被問題“帶偏”，并在回答中爆粗口，得分也被拉低。

在一份冗長的材料中找到需要的內容，長文本分析正成為媒體工作者的“剛需”，這也讓大模型更凸顯優(yōu)勢。2024 年，Kimi也憑借其包括長文本在內的一眾能力獲得了資本的青睞。在長文本總結能力排名中，通義、文心一言、訊飛星火位列前三，得分均超過1500。測評發(fā)現(xiàn)，大模型的長文本能力受到了兩項制約：容量越大的文件耗費的tokens越多，成本就越大，因此對于“上傳兩份財報并進行對比”的測試題目，DeepSeek、Kimi、智譜清言分別只能上傳文件的18%、52%、41.75%，得分也因此較低。

值得一提的是，成功上傳了兩份財報的大模型中，通義、訊飛星火、騰訊元寶不僅準確提煉了相關公司的營業(yè)收入、凈利潤、毛利率等數據，騰訊元寶使用混元大模型還生成了對比表格，結果一目了然。相比之下，文心一言雖然也生成了表格，但總收入數據提取出現(xiàn)錯誤。

語言翻譯能力一直是大模型的標桿性能力，在實際應用中最為廣泛。結果顯示，訊飛星火、騰訊元寶、通義排名前三。

本測評旨在從五個不同維度評估大語言模型產品針對媒體行業(yè)實際工作場景的能力表現(xiàn)，共計生成了128個結果，測評方法采用了Elo 機制（一種通過數學公式計算競技者隱藏分，以評估和匹配競技者的機制），共有超過80位評委參與打分。

測評表明，大模型在媒體行業(yè)的應用潛力巨大，尤其在信息檢索、文本生成和翻譯方面展現(xiàn)出顯著價值。頭部“大廠”模型憑借資源和技術積累，在綜合能力和穩(wěn)定性上優(yōu)勢明顯。然而，面臨的挑戰(zhàn)依然嚴峻，包括虛假信息識別能力亟待提升，以避免傳播誤導；長文本處理的容量限制和成本問題制約了實用價值；倫理安全防線需持續(xù)加固，防止被惡意誘導；文本生成的深度和專業(yè)性仍需向資深媒體人的水準看齊。

報告認為，在選擇和使用大模型工具時，媒體從業(yè)者應該優(yōu)先考慮綜合表現(xiàn)穩(wěn)定、安全可靠的頭部模型。在進行事實核查時，需對模型檢索結果保持警惕，特別是熱點或爭議話題。此外，處理超長文檔或復雜分析任務時，需確認模型的實際處理能力，避免因容量限制導致失敗。

新京報貝殼財經記者韋博雅羅亦丹

編輯王進雨

校對穆祥桐

136 +1

微信

我要評論

133****5109 1天前
訊飛很優(yōu)秀啊
Romy 1天前
大廠出身還是強啊
田叢 1天前
好幾個都用過，讓他們一起工作
135****3369 1天前
可以的

更多評論請在客戶端查看>

97视频在线观看播放,国产成人拍精品视频午夜网站,99久久国产综合精品麻豆,99久久er这里只有精品18 ,国产69精品久久久久久

8款模型5項傳媒能力測評：4款踩坑假消息，兩款未過“倫理關”

我要評論

熱點

最新

97视频在线观看播放,国产成人拍精品视频午夜网站,99久久国产综合精品麻豆,99久久er这里只有精品18 ,国产69精品久久久久久

8款模型5項傳媒能力測評：4款踩坑假消息，兩款未過“倫理關”

我要評論

熱點

最新

8款模型5項傳媒能力測評：4款踩坑假消息，兩款未過“倫理關”