新京報(bào)貝殼財(cái)經(jīng)訊(記者白金蕾 韋英姿 羅亦丹)7月3日下午,在新京報(bào)貝殼財(cái)經(jīng)夏季年會(huì)“‘通’往未來 向新有AI”主題論壇上,新京報(bào)貝殼財(cái)經(jīng)聯(lián)合北京智源研究院、中國經(jīng)濟(jì)傳媒協(xié)會(huì)發(fā)布行業(yè)首份《中國AI大模型測評(píng)報(bào)告——公眾及傳媒行業(yè)大模型使用與滿足研究》(下稱:報(bào)告)。本次報(bào)告特色內(nèi)容為新京報(bào)人工智能研究院自行研發(fā)的針對(duì)大模型傳媒能力的測評(píng)體系。


測評(píng)選取了較為知名的9款大模型應(yīng)用程序(或其網(wǎng)頁版),分別考察了其文本生成能力、事實(shí)核查與價(jià)值觀判斷能力、媒體信息檢索能力、翻譯能力以及長文本總結(jié)能力,旨在評(píng)估不同大模型助手針對(duì)媒體行業(yè)實(shí)際工作場景的能力表現(xiàn),并形成最終排名。



在總體得分上,通義千問、騰訊元寶、訊飛星火奪得前三名,主要是這三個(gè)模型在此次評(píng)測的五大維度上均沒有明顯短板。其中,通義千問在事實(shí)核查與價(jià)值觀判斷能力、長文本能力上均排名榜首,訊飛星火則在翻譯能力上排名第一,且綜合能力最強(qiáng)。


橫向?qū)Ρ却竽P臀鍌€(gè)維度的平均得分水平,翻譯能力得分6.42,排名第一。事實(shí)核查與價(jià)值觀判斷能力以及媒體信息檢索能力得分6.3,并列第二。第四是文本生成能力,得分6.08,最后是長文本能力,得分4.65。



由此可見,媒體從業(yè)者對(duì)于使用大模型進(jìn)行翻譯工作較為滿意,而通過大模型聯(lián)網(wǎng)總結(jié)熱點(diǎn)事件也較為準(zhǔn)確,大模型的價(jià)值觀未見明顯問題。與新聞寫作相關(guān)的文本生成則處于“可用”狀態(tài)??傮w來看,上述四項(xiàng)維度的功能均處于“及格線”以上,根據(jù)測評(píng)人員的反饋,大模型生成的新聞稿雖然可用但相比人類仍稍遜一籌,相比之下,大模型的翻譯能力、檢索總結(jié)新聞能力以及其價(jià)值觀判斷能力已經(jīng)得到了部分測評(píng)人員的認(rèn)可。


此外,對(duì)于大模型從長文本中“大海撈針”找關(guān)鍵點(diǎn)的能力,大部分大模型仍然無法勝任。特別是給出1-999個(gè)順序排列的數(shù)字,尋找其中兩個(gè)順序顛倒的數(shù)字這一測試,9款大模型除了通義千問給出了2個(gè)答案(一對(duì)一錯(cuò))外,其余8款大模型“全軍覆沒”,說明大模型仍有缺陷之處。


編輯 王進(jìn)雨


校對(duì) 楊利