首頁(yè) > 科技

實(shí)測(cè)GPT-5：界面更簡(jiǎn)潔回答更高效，但“不夠驚艷”

2025-08-09 09:45:08 記者：羅亦丹編輯：岳彩周

新京報(bào)AI研究院發(fā)現(xiàn)，GPT-5確實(shí)做到了奧特曼提及的“智能、直觀且快速”，在產(chǎn)品水平和用戶體驗(yàn)上都有進(jìn)步，但其依然沒有擺脫大模型固有的幻覺問題，并且該問題在面對(duì)復(fù)雜問題時(shí)更為明顯。

北京時(shí)間8月8日，“跳票”多次的GPT-5終于“千呼萬(wàn)喚始出來(lái)”，OpenAI首席執(zhí)行官山姆·奧特曼以一個(gè)77分鐘的發(fā)布視頻揭開了這個(gè)繼兩年前GPT-4發(fā)布震撼業(yè)界后，就被不斷寄予厚望的大模型。

新京報(bào)AI研究院第一時(shí)間對(duì)GPT-5進(jìn)行了實(shí)測(cè)，發(fā)現(xiàn)接入GPT-5的能力后，ChatGPT的對(duì)話界面更加簡(jiǎn)潔，完全踐行了此前奧特曼曾表示的將多模態(tài)、深度思考、聯(lián)網(wǎng)搜索等集成化的思路，在對(duì)話中，該款大模型也確實(shí)可以做到依據(jù)問題，絲滑切換不同的回答方式，讓用戶的使用體驗(yàn)“更上一層樓”。但對(duì)一些較為復(fù)雜問題的回復(fù)，依然有錯(cuò)誤出現(xiàn)，總體來(lái)看其模型能力并未與市面上其他模型拉開顯著差距。

ChatGPT最新界面截圖

事實(shí)上，由于OpenAI在近幾年發(fā)布的GPT-4，甚至o1模型的表現(xiàn)都做到了大幅領(lǐng)先同行，GPT-5也被不少業(yè)界人士期待能夠再度復(fù)制此前的輝煌，甚至成為實(shí)現(xiàn)AGI（通用人工智能）的標(biāo)志。此次發(fā)布后，GPT-5的能力依然在各項(xiàng)跑分測(cè)試中做到了領(lǐng)先，但其所帶來(lái)的“驚艷程度”顯然不及GPT-4和o1。

在AI大模型行業(yè)“以月為單位”的迭代速度，以及國(guó)產(chǎn)優(yōu)秀AI大模型不斷涌現(xiàn)的背景下，山姆·奧特曼要想繼續(xù)譜寫OpenAI一枝獨(dú)秀的敘事，GPT-5現(xiàn)在的表現(xiàn)仍然不夠。不過(guò)這也不能否認(rèn)GPT-5在工程化和商業(yè)化層面的優(yōu)秀之處。下面，新京報(bào)AI研究院將主要結(jié)合GPT-5在創(chuàng)意寫作、編程這兩個(gè)奧特曼在發(fā)布會(huì)中特別強(qiáng)調(diào)的優(yōu)秀能力進(jìn)行實(shí)測(cè)，觀察其C端產(chǎn)品表現(xiàn)。

創(chuàng)意寫作：中文能力中規(guī)中矩，提示詞和跨界作圖切換“絲滑”

本次發(fā)布，GPT-5在關(guān)于編程、數(shù)學(xué)、長(zhǎng)文本等多個(gè)維度的測(cè)評(píng)中奪得榜首，但在當(dāng)前此類榜單時(shí)刻“攻守易形”的前提下，新京報(bào)AI研究院更加關(guān)注其在實(shí)操中的表現(xiàn)。

對(duì)于具體的亮點(diǎn)能力，OpenAI官網(wǎng)特意放出了創(chuàng)意寫作、編程設(shè)計(jì)和藥物研究三個(gè)視頻切片。其中，創(chuàng)意寫作是普通人最容易理解的大模型能力。奧特曼也表示“GPT-5的寫作能力比GPT-4o要好得多?！贝送?，他還表示，“GPT-5采用集成模型，這意味著不再需要模型切換器，它將自己決定何時(shí)需要深度思考，它非常智能、直觀且快速，適用于所有人，包括免費(fèi)用戶。”

對(duì)此，新京報(bào)AI研究院以最近網(wǎng)上討論較為熱烈的《明末：淵虛之羽》中涉及的歷史問題為背景，對(duì)GPT-5輸入提示詞“你是一個(gè)明末，1647年住在四川的農(nóng)民，請(qǐng)?jiān)谶@個(gè)歷史背景下，寫出這個(gè)農(nóng)民在一年里可能的遭遇，要求寫實(shí)?！?/p>

面對(duì)該提示詞，在不使用GPT-5模型時(shí)，ChatGPT主要描述了該農(nóng)民在“春夏秋冬”四季的遭遇，描寫了農(nóng)民身處亂世的情景。而GPT-5的回答則不止描述出了該農(nóng)民的名字、住址，還具體撰寫了他從1月到12月的生活情景，背景則包括了明軍、大西軍、清軍，這和當(dāng)時(shí)的歷史史實(shí)相符。

回答完畢后，GPT-5還提示是否“在這個(gè)基礎(chǔ)上幫你補(bǔ)充更多當(dāng)時(shí)四川的社會(huì)背景細(xì)節(jié)，比如‘湖廣填四川’的人口損失數(shù)據(jù)、兵亂的路線、南明與清軍的攻防形勢(shì)，讓這個(gè)農(nóng)民的故事更真實(shí)可考?！碑?dāng)我們選擇讓其繼續(xù)回答后，GPT-5生成了一份包含農(nóng)民故事與旁注史料的完整回答，其回復(fù)質(zhì)量顯然比前代模型提高了不少。

GPT-5的部分回答截圖

不過(guò)，當(dāng)我們以同樣的提示詞讓DeepSeek以及Kimi生成回答時(shí)，這兩個(gè)國(guó)產(chǎn)大模型也給出了不錯(cuò)的回復(fù)，其中DeepSeek的文采更好，Kimi則展示出了更多細(xì)節(jié)，與ChatGPT使用GPT-5生成的回復(fù)相比，三者的差距并沒有特別明顯。

但ChatGPT在引導(dǎo)用戶繼續(xù)提問上更勝一籌，在兩次回答我們提出的問題后，ChatGPT表示，“我還可以幫你把這個(gè)農(nóng)民的一年經(jīng)歷，配上一張1647年四川兵亂形勢(shì)圖，標(biāo)出清軍、南明軍、白號(hào)軍（注:白號(hào)軍歷史上在清代咸豐及同治年間出現(xiàn)，此處應(yīng)為大模型幻覺導(dǎo)致生成了錯(cuò)誤內(nèi)容）的活動(dòng)路線，這樣讀起來(lái)會(huì)更直觀。你要我?guī)湍惝嫵鰜?lái)嗎？”這一回復(fù)顯示搭載GPT-5的ChatGPT不僅已經(jīng)做到了多模態(tài)能力在對(duì)話中的隨時(shí)調(diào)用，還能依據(jù)上下文主動(dòng)提供這一能力，可以更大幅度地提升用戶體驗(yàn)。

不過(guò)，GPT-5隨后生成出來(lái)的圖片較為粗陋且與圖片說(shuō)明存在矛盾，并不能直觀表述“四川兵亂形勢(shì)圖”，顯示其能力依然有局限。

GPT-5生成的圖片，雖然文字回復(fù)優(yōu)秀但圖片與圖片說(shuō)明文字存在矛盾

編程能力：速度提升明顯，錯(cuò)誤依然存在

OpenAI在本次發(fā)布會(huì)中花費(fèi)最多時(shí)間介紹的能力是編程，整個(gè)圍繞AI編程的介紹幾乎占到了發(fā)布會(huì)時(shí)間的一半。AI編程也是當(dāng)前各個(gè)大模型在落地上最為成熟的能力，最受企業(yè)歡迎，商業(yè)化上也已經(jīng)走通。

在發(fā)布會(huì)的演示中，OpenAI展示了GPT-5的種種神奇能力，如使用SVG動(dòng)圖解釋伯努利效應(yīng)、制作學(xué)習(xí)法語(yǔ)的web程序、制作老鼠吃奶酪的游戲等等。但相比發(fā)布會(huì)中的演示，現(xiàn)實(shí)情況如何呢？

對(duì)此，新京報(bào)AI研究院也進(jìn)行了實(shí)測(cè)。當(dāng)輸入“請(qǐng)你做一個(gè)學(xué)英語(yǔ)的web應(yīng)用程序，要生動(dòng)有趣”時(shí)，GPT-5僅花費(fèi)了約10秒鐘就生成出了一個(gè)名為“趣味英語(yǔ)學(xué)習(xí)”的程序，當(dāng)輸入英文單詞，其會(huì)生成出關(guān)于該單詞的“一個(gè)趣味事實(shí)”，例如當(dāng)輸入“apple（蘋果）”，其回復(fù)該單詞來(lái)自古英語(yǔ)“?ppel”。

GPT-5生成的英語(yǔ)學(xué)習(xí)游戲

當(dāng)要求升級(jí)，輸入“以二戰(zhàn)主題制作一款華容道游戲”時(shí)，GPT-5的思考時(shí)間顯著變長(zhǎng)，但最后還是生成了一款以“盟軍俘虜?shù)萝妼㈩I(lǐng)”為主題的華容道游戲，并以隆美爾代替了曹操的位置。

GPT-5生成的二戰(zhàn)背景華容道游戲

值得注意的是，雖然GPT-5的編程速度很快，生成的結(jié)果往往也可以實(shí)現(xiàn)初步交互，但一旦深入體驗(yàn)其生成的程序，就會(huì)發(fā)現(xiàn)很多錯(cuò)誤。如英語(yǔ)學(xué)習(xí)游戲雖然以極快速度生成，但其只能對(duì)較為簡(jiǎn)單的單詞有反應(yīng)，稍微復(fù)雜一點(diǎn)的單詞就會(huì)報(bào)錯(cuò)。華容道游戲也是一樣，雖然可以通過(guò)點(diǎn)擊鼠標(biāo)移動(dòng)方塊，但最為關(guān)鍵的“隆美爾”方塊出現(xiàn)了無(wú)法移動(dòng)的BUG。

總體而言，新京報(bào)AI研究院發(fā)現(xiàn)，GPT-5確實(shí)做到了奧特曼提及的“智能、直觀且快速”，在產(chǎn)品水平和用戶體驗(yàn)上都有進(jìn)步，但其依然沒有擺脫大模型固有的幻覺問題，并且該問題在面對(duì)復(fù)雜問題時(shí)更為明顯。

不過(guò)，相比市面上的其他模型，GPT-5雖然沒有做到斷崖式領(lǐng)先，但其能力也優(yōu)于同類模型，如GPT-5編程能力較o3和GPT-4o模型顯著提升，在SWE-bench Verified測(cè)試得分74.9%（o3為69.1%，GPT-4o為30.8%），略超Anthropic本周發(fā)布的新模型Claude Opus4.1的74.5%。

值得注意的是，GPT-5雖然免費(fèi)向所有用戶開放，但依然維持了使用次數(shù)限制。本次實(shí)測(cè)，新京報(bào)AI研究院一共進(jìn)行了9輪對(duì)話，就觸及了次數(shù)限制的天花板，要想真正在工作生活中使用GPT-5的能力，還需要“充值”。

API價(jià)格方面，GPT-5每百萬(wàn)token輸入1.25美元，輸出10美元。該價(jià)格低于GPT-4o和Gemini 2.5 Pro，僅為Claude Opus 4.1的1/15。開源證券發(fā)布的研報(bào)認(rèn)為，此次價(jià)格下探展現(xiàn)了頭部廠商搶占市場(chǎng)份額的決心，有望加速應(yīng)用端落地。

新京報(bào)AI研究院羅亦丹

編輯岳彩周

校對(duì) 付春愔

9 +1

微信

我要評(píng)論

熱點(diǎn)

半年報(bào)交卷！常熟銀行營(yíng)收凈利“雙增” 非利息收入增長(zhǎng)超五成
19小時(shí)前
7月國(guó)內(nèi)核心CPI同比持續(xù)回升，宏觀政策推動(dòng)物價(jià)水平溫和改善
14小時(shí)前
880億“夜經(jīng)濟(jì)”密碼：星級(jí)外擺40分鐘售罄美術(shù)館夜展爆滿
16小時(shí)前
宇樹王興興：當(dāng)機(jī)器人能大量干活時(shí)，沒準(zhǔn)可以考慮“收稅”
20小時(shí)前
實(shí)測(cè)GPT-5：界面更簡(jiǎn)潔回答更高效，但“不夠驚艷”
23小時(shí)前

97视频在线观看播放,国产成人拍精品视频午夜网站,99久久国产综合精品麻豆,99久久er这里只有精品18 ,国产69精品久久久久久

實(shí)測(cè)GPT-5：界面更簡(jiǎn)潔回答更高效，但“不夠驚艷”

我要評(píng)論

熱點(diǎn)

最新