中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

爆殺所有前任!GPT-5上手體驗:編程讓人失望,幻覺控制驚喜

2025-08-09 17:22
來源:澎湃新聞·澎湃號·湃客
字號

北京時間 8 月 8 日,OpenAI 終于在萬眾矚目下發(fā)布了新一代模型 GPT-5 系列,徹底統(tǒng)合了之前的 GPT 系列模型和 o 系列推理模型,甚至在已推送 ChatGPT 用戶中下架了 GPT-4o、4.5、o3、o4 mini 等其他所有模型。

再見了所有的 GPT,圖片來源:X

與此同時,OpenAI 還宣稱 GPT-5(還包括 nano、mini、Pro 型號)在減少幻覺和最小化阿諛奉承上有了重大進展,在最常用的三個用途——寫作、編程和健康咨詢方面的性能有了提升。

GPT-5華麗亮相:低級錯誤多,進步不容忽視

耐人尋味的是,OpenAI 在 GPT-5 發(fā)布會的演示文件上卻翻了車,一張基準測試圖表中出現(xiàn)「52.8 遠大于 69.1」的低級錯誤,目前不得而知相關(guān)圖表的錯誤是不是由 GPT-5 生成的「幻覺」,但可以肯定是 OpenAI 營銷團隊大概率出現(xiàn)了「幻覺」,竟然沒有檢查發(fā)現(xiàn)。

左側(cè)柱狀圖,圖/ OpenAI

原本用來展示編程能力進步的圖表,非但沒能讓觀眾記住 GPT-5 的優(yōu)勢,反而成了社交媒體上調(diào)侃的對象,有網(wǎng)友就吐槽,「這也許是有史以來最不擅長作圖的 AI 公司」。

但調(diào)侃背后,GPT-5 的進步也不能忽視。就像知名開發(fā)者 Simon Willison 給出的評價是:它依然是一個大型語言模型,但犯錯的頻率更低,整體表現(xiàn)穩(wěn)定,甚至時不時能給人帶來驚喜。Every 團隊的 Dan Shipper 則在測試中發(fā)現(xiàn),GPT-5 普通模式下依舊會自信地編造內(nèi)容,但一旦切換到「思考(Think)」模式,準確率明顯提升。

更重要的是,對 ChatGPT 用戶來說,GPT-5 和 GPT-4o 一樣提供免費的使用額度,用完會繼續(xù)免費使用 GPT-5 mini。而 API 的調(diào)用價格也比隔壁新發(fā)布的 Claude 4.1 便宜不少,主打的 GPT-5 輸入價格為 1.25 美元/百萬 tokens,輸出價格為 10 美元/百萬 tokens,系列中 mini 和 nano 的價格基本與本地自托管的單位成本相當。

盡管 GPT-5 還是 GPT,距離真正的 AGI 仍有很遠的距離。但拋開輿論的褒貶,GPT-5 似乎依然交出一份不錯的成績,發(fā)布會上用更多時間介紹實際使用中的改進,而不是基準測試的跑分成績。而雷科技在接收到 GPT-5 的資格推送后,也在第一時間進行了體驗。

GPT-5上手:編程最失望,幻覺控制成驚喜

把花活兒放一邊,真正決定口碑的還是上手表現(xiàn)。

在此之前,需要提前說明的是,GPT-5 通過類似 Claude 3.7 Sonnet「混合推理」的方式實現(xiàn)了「思考」和「非思考」模型的統(tǒng)一。簡單來說,如果問題簡單,GPT-5 會直接進行回答,如果有難度則會進行幾秒到幾分鐘的思考,再輸出回答。

回到體驗中,OpenAI 在介紹 GPT-5 時著重介紹了編程能力的提升。不過說實話,雷科技的體驗有些差強人意。

Gemini 生成網(wǎng)頁,圖片來源:雷科技

同樣讓 Gemini 2.5 Pro、DeepSeek R1、豆包(深度思考)和 GPT-5 生成一個用 3D 模型展示「地球如何形成」網(wǎng)頁,Gemini 2.5 Pro 不論從速度、生成質(zhì)量來說都是最好的,DeepSeek R1 生成質(zhì)量比較一般,但至少可正常預覽運行,豆包只是生成了一個沒有 3D 模型網(wǎng)頁,GPT-5 則遇到了明顯的運行錯誤。

圖片來源:雷科技

即便 GPT-5 據(jù)稱有了很強的代碼定位能力,確實能夠直接定位問題代碼進行修改,但實際運行依然存在錯誤,無法正常顯示 3D 模型,遑論進行交互。不過這里需要指出,即便使用 OpenAI 在 Github 官方用例中給出的提示詞(Prompt),我們還是無法排除問題,在 macOS 端和網(wǎng)頁端實現(xiàn)正常運行。

不過這并不妨礙其他測試,我們還讓 GPT-5 找出過去一年內(nèi)所有采用自研 ISP(圖像處理器)的旗艦手機,這一步實際是想測試大模型的多步任務能力以及降低幻覺的表現(xiàn)。這個問題并不簡單,DeepSeek R1(新版 0528)和豆包(深度思考)在測試就出現(xiàn)了明顯的幻覺,比如三星 Galaxy S25 Ultra 搭載 Exynos 2400、玄戒 O1 從 SoC 變成了「ISP」。

圖片來源:雷科技

與之相比,GPT-5 雖然在第一次回答中漏掉了小米,只列出了蘋果、華為以及 vivo 的當代旗艦,但并沒有出現(xiàn)任何幻覺。而在提醒后,GPT-5 還是可以找到更明確的信息進行補充,還順帶指出了 Pixel 10(Tensor 5)、Galaxy S26(Exynos 2600)可能采用自研 ISP 的傳聞。

事實上,GPT-5 在對話中有一個明顯的改進就是風格變得更加克制的同時,表達上也更加謹慎,相比常用的 GPT-4o 和 o3 在幻覺上都有明顯的提升。尤其是在進入思考后,GPT-5 還會在過程中進行信息的自審和復核,降低「半路跑偏」的可能。

圖片來源:雷科技

至于推理能力上,我們將分數(shù)修改的測試題再次詢問 DeepSeek R1、豆包(深度思考)還是沒能正確答出,DeepSeek R1 甚至思考了很久還給出了完全相反的邏輯,Gemini 2.5 Pro 只推理到了女兒是紅綠色盲,卻沒有應用遺傳學知識推理出父親過了一會兒崩潰的核心原因。

圖片來源:雷科技

而 GPT-5 依然延續(xù)了 o3 的推理表現(xiàn),能夠正確推理出這個測試題背后的關(guān)鍵結(jié)果,并用更簡潔易懂的表達方式輸出回答。

GPT-5 的使用體驗也值得一提。如果是較為簡單的問題,GPT-5 基本都能準確以默認的非思考模式運行,延遲基本與我們之前體驗的 GPT-4o 一致。而一旦進入「思考」,響應會拉長,但換來更完整的執(zhí)行鏈。

不過類似的體驗我們早在 Claude 3.7 Sonnet 上就有了,豆包等模型也早已跟進,GPT-5 的特別之處在于,即便進入思考模型,過程中也會根據(jù)難易調(diào)整時間,智能回答的程度確定不一般。

更重要的是,很多不是很難的問題即便 GPT-5 需要思考回答,也不用等待太久時間,這一點在使用 DeepSeek R1 等獨立推理模型的時候格外明顯。

所以 GPT-5 擔得起 OpenAI 口中的「專家」之名嗎?結(jié)論可能還是要分場景來看。在信息缺口較大、需要主觀判斷的寫作或研究型任務里,它更像謹慎的助理,會提醒你補證、給檢索路線,但不會替你拍板。但當我們不給約束或者刻意留坑時,它仍可能一本正經(jīng)胡說八道。

簡言之,GPT-5 并不是傳聞中的 AGI,也不是「萬事皆通」的通用專家,但相比當前主流大模型,GPT-5 確實在很多類型的任務有更好的表現(xiàn),尤其是在降低幻覺的表現(xiàn)上。

還稱不上AGI,卻是一次「全盤換血」

從體驗回到現(xiàn)實,GPT-5 很快就讓人意識到:它并不是過去傳聞中那個「AGI」——沒有持續(xù)學習能力,不會在一次對話之外保留對世界的新理解,也不會像人類一樣在跨領(lǐng)域問題中自發(fā)形成創(chuàng)造性的長鏈推理。它依舊是一個大型語言模型,只是推理更穩(wěn)、幻覺更少、交互更克制。

換句話說,這是一場「升級」,但遠談不上「進化」,也擔不起很多媒體制造的焦慮。

然而,OpenAI 在發(fā)布 GPT-5 的同時,做了一個更有戰(zhàn)略意味的動作:直接下架 ChatGPT 里原本存在的 GPT-4o、GPT-4.5、o3、o4 mini 等全部模型,把用戶的選擇統(tǒng)一到 GPT-5 及其推理模式。對外的解釋很簡單——讓用戶不用糾結(jié)選哪個,體驗交給系統(tǒng)自動路由;但這種「全盤換血」的決策,背后有更復雜的動因。

圖片來源:雷科技

一方面,維護多款模型不僅意味著更高的算力成本,還需要對每個模型單獨進行安全微調(diào)、數(shù)據(jù)更新、工具適配。這種分散消耗在用戶量巨大的情況下尤其昂貴。GPT-5 采用統(tǒng)一底座、分模式路由,可以集中優(yōu)化推理和安全策略,把維護成本降到單一版本級別。

同時,通過 mini 和 nano 這樣的輕量版本,覆蓋了低延遲、低成本場景,減少原本需要用 GPT-4o mini、o3 這種低配模型的理由。

另一方面,對很多非技術(shù)用戶來說,GPT-4o、4.5、o3 這些名字并沒有清晰的定位,反而造成「我該選哪個」的選擇負擔。統(tǒng)一成 GPT-5,可以形成一個更明確的品牌錨點——當用戶想到 ChatGPT,就只會想到 GPT-5,而不會在不同版本間搖擺。這不僅簡化了用戶體驗,也強化了 OpenAI 想要的「新旗艦」心智。

圖片來源:OpenAI

此外,對于付費用戶尤其是 Pro 用戶,GPT-5 提供的高階功能和模式(如 GPT-5 pro、Think 模式)成為主打賣點。下架舊模型等于把付費升級與新功能綁定,減少用戶停留在舊版本的可能。這既能提升付費轉(zhuǎn)化率,也方便在后續(xù)迭代中直接對單一產(chǎn)品做價格和功能調(diào)整。

從商業(yè)和運營的角度看,這個策略的合理性很強——更低的維護成本、更高的品牌聚焦、更明確的升級通道。但風險在于,它切斷了用戶在不同模型間對比體驗的機會,也剝奪了對某些特定版本偏好的長期用戶的選擇權(quán)。對技術(shù)社區(qū)和部分開發(fā)者來說,這意味著失去對舊模型穩(wěn)定行為的依賴,需要重新適配和驗證 GPT-5 的輸出。

從這些角度來看,這次「全盤換血」也是在押注 GPT-5 能覆蓋絕大多數(shù)需求,并通過模式切換滿足不同性能/成本場景。賭贏了,OpenAI 就能以更高的效率運營并強化市場話語權(quán);但如果用戶在關(guān)鍵任務上感受到退步,反彈的聲音也會迅速放大。

而從目前的初步體驗來看,GPT-5 確實可以比較完美替代過去的 GPT-4o、GPT-4.5 以及 o3 等所有推理模型,并且自動切入思考(推理)的體驗也做到了相對順滑和一致的體驗。

簡單來說,GPT-5 并不革命,但大概率會很成功。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋