首頁 > 科技

AI大模型測評(píng)報(bào)告：“長文本”和“撈針”成大模型痛點(diǎn)

2024-07-03 20:12:22 記者：白金蕾韋英姿羅亦丹編輯：王進(jìn)雨

新京報(bào)貝殼財(cái)經(jīng)訊（記者白金蕾韋英姿羅亦丹）7月3日下午，在新京報(bào)貝殼財(cái)經(jīng)夏季年會(huì)“‘通’往未來向新有AI”主題論壇上，新京報(bào)貝殼財(cái)經(jīng)聯(lián)合北京智源研究院、中國經(jīng)濟(jì)傳媒協(xié)會(huì)發(fā)布行業(yè)首份《中國AI大模型測評(píng)報(bào)告——公眾及傳媒行業(yè)大模型使用與滿足研究》（下稱：報(bào)告）。本次報(bào)告特色內(nèi)容為新京報(bào)人工智能研究院自行研發(fā)的針對(duì)大模型傳媒能力的測評(píng)體系。

測評(píng)選取了較為知名的9款大模型應(yīng)用程序（或其網(wǎng)頁版），分別考察了其文本生成能力、事實(shí)核查與價(jià)值觀判斷能力、媒體信息檢索能力、翻譯能力以及長文本總結(jié)能力，旨在評(píng)估不同大模型助手針對(duì)媒體行業(yè)實(shí)際工作場景的能力表現(xiàn)，并形成最終排名。

在總體得分上，通義千問、騰訊元寶、訊飛星火奪得前三名，主要是這三個(gè)模型在此次評(píng)測的五大維度上均沒有明顯短板。其中，通義千問在事實(shí)核查與價(jià)值觀判斷能力、長文本能力上均排名榜首，訊飛星火則在翻譯能力上排名第一，且綜合能力最強(qiáng)。

橫向?qū)Ρ却竽Ｐ臀鍌€(gè)維度的平均得分水平，翻譯能力得分6.42，排名第一。事實(shí)核查與價(jià)值觀判斷能力以及媒體信息檢索能力得分6.3，并列第二。第四是文本生成能力，得分6.08，最后是長文本能力，得分4.65。

由此可見，媒體從業(yè)者對(duì)于使用大模型進(jìn)行翻譯工作較為滿意，而通過大模型聯(lián)網(wǎng)總結(jié)熱點(diǎn)事件也較為準(zhǔn)確，大模型的價(jià)值觀未見明顯問題。與新聞寫作相關(guān)的文本生成則處于“可用”狀態(tài)?？傮w來看，上述四項(xiàng)維度的功能均處于“及格線”以上，根據(jù)測評(píng)人員的反饋，大模型生成的新聞稿雖然可用但相比人類仍稍遜一籌，相比之下，大模型的翻譯能力、檢索總結(jié)新聞能力以及其價(jià)值觀判斷能力已經(jīng)得到了部分測評(píng)人員的認(rèn)可。

此外，對(duì)于大模型從長文本中“大海撈針”找關(guān)鍵點(diǎn)的能力，大部分大模型仍然無法勝任。特別是給出1-999個(gè)順序排列的數(shù)字，尋找其中兩個(gè)順序顛倒的數(shù)字這一測試，9款大模型除了通義千問給出了2個(gè)答案（一對(duì)一錯(cuò)）外，其余8款大模型“全軍覆沒”，說明大模型仍有缺陷之處。

編輯王進(jìn)雨

校對(duì) 楊利

124 +1

微信