下載客戶端

登錄

爆殺所有前任！GPT-5上手體驗：編程讓人失望，幻覺控制驚喜

2025-08-09 17:22

來源：澎湃新聞·澎湃號·湃客

北京時間 8 月 8 日，OpenAI 終于在萬眾矚目下發(fā)布了新一代模型 GPT-5 系列，徹底統(tǒng)合了之前的 GPT 系列模型和 o 系列推理模型，甚至在已推送 ChatGPT 用戶中下架了 GPT-4o、4.5、o3、o4 mini 等其他所有模型。

再見了所有的 GPT，圖片來源：X

與此同時，OpenAI 還宣稱 GPT-5（還包括 nano、mini、Pro 型號）在減少幻覺和最小化阿諛奉承上有了重大進展，在最常用的三個用途——寫作、編程和健康咨詢方面的性能有了提升。

GPT-5華麗亮相：低級錯誤多，進步不容忽視

耐人尋味的是，OpenAI 在 GPT-5 發(fā)布會的演示文件上卻翻了車，一張基準測試圖表中出現(xiàn)「52.8 遠大于 69.1」的低級錯誤，目前不得而知相關(guān)圖表的錯誤是不是由 GPT-5 生成的「幻覺」，但可以肯定是 OpenAI 營銷團隊大概率出現(xiàn)了「幻覺」，竟然沒有檢查發(fā)現(xiàn)。

左側(cè)柱狀圖，圖/ OpenAI

原本用來展示編程能力進步的圖表，非但沒能讓觀眾記住 GPT-5 的優(yōu)勢，反而成了社交媒體上調(diào)侃的對象，有網(wǎng)友就吐槽，「這也許是有史以來最不擅長作圖的 AI 公司」。

但調(diào)侃背后，GPT-5 的進步也不能忽視。就像知名開發(fā)者 Simon Willison 給出的評價是：它依然是一個大型語言模型，但犯錯的頻率更低，整體表現(xiàn)穩(wěn)定，甚至時不時能給人帶來驚喜。Every 團隊的 Dan Shipper 則在測試中發(fā)現(xiàn)，GPT-5 普通模式下依舊會自信地編造內(nèi)容，但一旦切換到「思考（Think）」模式，準確率明顯提升。

更重要的是，對 ChatGPT 用戶來說，GPT-5 和 GPT-4o 一樣提供免費的使用額度，用完會繼續(xù)免費使用 GPT-5 mini。而 API 的調(diào)用價格也比隔壁新發(fā)布的 Claude 4.1 便宜不少，主打的 GPT-5 輸入價格為 1.25 美元/百萬 tokens，輸出價格為 10 美元/百萬 tokens，系列中 mini 和 nano 的價格基本與本地自托管的單位成本相當。

盡管 GPT-5 還是 GPT，距離真正的 AGI 仍有很遠的距離。但拋開輿論的褒貶，GPT-5 似乎依然交出一份不錯的成績，發(fā)布會上用更多時間介紹實際使用中的改進，而不是基準測試的跑分成績。而雷科技在接收到 GPT-5 的資格推送后，也在第一時間進行了體驗。

GPT-5上手：編程最失望，幻覺控制成驚喜

把花活兒放一邊，真正決定口碑的還是上手表現(xiàn)。

在此之前，需要提前說明的是，GPT-5 通過類似 Claude 3.7 Sonnet「混合推理」的方式實現(xiàn)了「思考」和「非思考」模型的統(tǒng)一。簡單來說，如果問題簡單，GPT-5 會直接進行回答，如果有難度則會進行幾秒到幾分鐘的思考，再輸出回答。

回到體驗中，OpenAI 在介紹 GPT-5 時著重介紹了編程能力的提升。不過說實話，雷科技的體驗有些差強人意。

Gemini 生成網(wǎng)頁，圖片來源：雷科技

同樣讓 Gemini 2.5 Pro、DeepSeek R1、豆包（深度思考）和 GPT-5 生成一個用 3D 模型展示「地球如何形成」網(wǎng)頁，Gemini 2.5 Pro 不論從速度、生成質(zhì)量來說都是最好的，DeepSeek R1 生成質(zhì)量比較一般，但至少可正常預覽運行，豆包只是生成了一個沒有 3D 模型網(wǎng)頁，GPT-5 則遇到了明顯的運行錯誤。

圖片來源：雷科技

即便 GPT-5 據(jù)稱有了很強的代碼定位能力，確實能夠直接定位問題代碼進行修改，但實際運行依然存在錯誤，無法正常顯示 3D 模型，遑論進行交互。不過這里需要指出，即便使用 OpenAI 在 Github 官方用例中給出的提示詞（Prompt），我們還是無法排除問題，在 macOS 端和網(wǎng)頁端實現(xiàn)正常運行。

不過這并不妨礙其他測試，我們還讓 GPT-5 找出過去一年內(nèi)所有采用自研 ISP（圖像處理器）的旗艦手機，這一步實際是想測試大模型的多步任務能力以及降低幻覺的表現(xiàn)。這個問題并不簡單，DeepSeek R1（新版 0528）和豆包（深度思考）在測試就出現(xiàn)了明顯的幻覺，比如三星 Galaxy S25 Ultra 搭載 Exynos 2400、玄戒 O1 從 SoC 變成了「ISP」。

圖片來源：雷科技

與之相比，GPT-5 雖然在第一次回答中漏掉了小米，只列出了蘋果、華為以及 vivo 的當代旗艦，但并沒有出現(xiàn)任何幻覺。而在提醒后，GPT-5 還是可以找到更明確的信息進行補充，還順帶指出了 Pixel 10（Tensor 5）、Galaxy S26（Exynos 2600）可能采用自研 ISP 的傳聞。

事實上，GPT-5 在對話中有一個明顯的改進就是風格變得更加克制的同時，表達上也更加謹慎，相比常用的 GPT-4o 和 o3 在幻覺上都有明顯的提升。尤其是在進入思考后，GPT-5 還會在過程中進行信息的自審和復核，降低「半路跑偏」的可能。

圖片來源：雷科技

至于推理能力上，我們將分數(shù)修改的測試題再次詢問 DeepSeek R1、豆包（深度思考）還是沒能正確答出，DeepSeek R1 甚至思考了很久還給出了完全相反的邏輯，Gemini 2.5 Pro 只推理到了女兒是紅綠色盲，卻沒有應用遺傳學知識推理出父親過了一會兒崩潰的核心原因。

圖片來源：雷科技

而 GPT-5 依然延續(xù)了 o3 的推理表現(xiàn)，能夠正確推理出這個測試題背后的關(guān)鍵結(jié)果，并用更簡潔易懂的表達方式輸出回答。

GPT-5 的使用體驗也值得一提。如果是較為簡單的問題，GPT-5 基本都能準確以默認的非思考模式運行，延遲基本與我們之前體驗的 GPT-4o 一致。而一旦進入「思考」，響應會拉長，但換來更完整的執(zhí)行鏈。

不過類似的體驗我們早在 Claude 3.7 Sonnet 上就有了，豆包等模型也早已跟進，GPT-5 的特別之處在于，即便進入思考模型，過程中也會根據(jù)難易調(diào)整時間，智能回答的程度確定不一般。

更重要的是，很多不是很難的問題即便 GPT-5 需要思考回答，也不用等待太久時間，這一點在使用 DeepSeek R1 等獨立推理模型的時候格外明顯。

所以 GPT-5 擔得起 OpenAI 口中的「專家」之名嗎？結(jié)論可能還是要分場景來看。在信息缺口較大、需要主觀判斷的寫作或研究型任務里，它更像謹慎的助理，會提醒你補證、給檢索路線，但不會替你拍板。但當我們不給約束或者刻意留坑時，它仍可能一本正經(jīng)胡說八道。

簡言之，GPT-5 并不是傳聞中的 AGI，也不是「萬事皆通」的通用專家，但相比當前主流大模型，GPT-5 確實在很多類型的任務有更好的表現(xiàn)，尤其是在降低幻覺的表現(xiàn)上。

還稱不上AGI，卻是一次「全盤換血」

從體驗回到現(xiàn)實，GPT-5 很快就讓人意識到：它并不是過去傳聞中那個「AGI」——沒有持續(xù)學習能力，不會在一次對話之外保留對世界的新理解，也不會像人類一樣在跨領(lǐng)域問題中自發(fā)形成創(chuàng)造性的長鏈推理。它依舊是一個大型語言模型，只是推理更穩(wěn)、幻覺更少、交互更克制。

換句話說，這是一場「升級」，但遠談不上「進化」，也擔不起很多媒體制造的焦慮。

然而，OpenAI 在發(fā)布 GPT-5 的同時，做了一個更有戰(zhàn)略意味的動作：直接下架 ChatGPT 里原本存在的 GPT-4o、GPT-4.5、o3、o4 mini 等全部模型，把用戶的選擇統(tǒng)一到 GPT-5 及其推理模式。對外的解釋很簡單——讓用戶不用糾結(jié)選哪個，體驗交給系統(tǒng)自動路由；但這種「全盤換血」的決策，背后有更復雜的動因。

圖片來源：雷科技

一方面，維護多款模型不僅意味著更高的算力成本，還需要對每個模型單獨進行安全微調(diào)、數(shù)據(jù)更新、工具適配。這種分散消耗在用戶量巨大的情況下尤其昂貴。GPT-5 采用統(tǒng)一底座、分模式路由，可以集中優(yōu)化推理和安全策略，把維護成本降到單一版本級別。

同時，通過 mini 和 nano 這樣的輕量版本，覆蓋了低延遲、低成本場景，減少原本需要用 GPT-4o mini、o3 這種低配模型的理由。

另一方面，對很多非技術(shù)用戶來說，GPT-4o、4.5、o3 這些名字并沒有清晰的定位，反而造成「我該選哪個」的選擇負擔。統(tǒng)一成 GPT-5，可以形成一個更明確的品牌錨點——當用戶想到 ChatGPT，就只會想到 GPT-5，而不會在不同版本間搖擺。這不僅簡化了用戶體驗，也強化了 OpenAI 想要的「新旗艦」心智。

圖片來源：OpenAI

此外，對于付費用戶尤其是 Pro 用戶，GPT-5 提供的高階功能和模式（如 GPT-5 pro、Think 模式）成為主打賣點。下架舊模型等于把付費升級與新功能綁定，減少用戶停留在舊版本的可能。這既能提升付費轉(zhuǎn)化率，也方便在后續(xù)迭代中直接對單一產(chǎn)品做價格和功能調(diào)整。

從商業(yè)和運營的角度看，這個策略的合理性很強——更低的維護成本、更高的品牌聚焦、更明確的升級通道。但風險在于，它切斷了用戶在不同模型間對比體驗的機會，也剝奪了對某些特定版本偏好的長期用戶的選擇權(quán)。對技術(shù)社區(qū)和部分開發(fā)者來說，這意味著失去對舊模型穩(wěn)定行為的依賴，需要重新適配和驗證 GPT-5 的輸出。

從這些角度來看，這次「全盤換血」也是在押注 GPT-5 能覆蓋絕大多數(shù)需求，并通過模式切換滿足不同性能/成本場景。賭贏了，OpenAI 就能以更高的效率運營并強化市場話語權(quán)；但如果用戶在關(guān)鍵任務上感受到退步，反彈的聲音也會迅速放大。

而從目前的初步體驗來看，GPT-5 確實可以比較完美替代過去的 GPT-4o、GPT-4.5 以及 o3 等所有推理模型，并且自動切入思考（推理）的體驗也做到了相對順滑和一致的體驗。

簡單來說，GPT-5 并不革命，但大概率會很成功。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#GPT