DeepSeek埋頭“小更新”，又打了模圈一個(gè)措手不及

2025-05-31 17:42

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

作者｜參商

編輯｜星奈

媒體｜AI大模型工場(chǎng)

29號(hào)，深度求索趕在端午假期到來(lái)前正式完成了DeepSeek R1模型的小版本升級(jí)，消息一出模圈嘩然。自從2月份紅遍國(guó)內(nèi)外后DeepSeek一直是以模型供應(yīng)商的身份活躍在大模型圈的“幕后”版塊，鮮少有在一線露面的機(jī)會(huì)，更多的是各家采購(gòu)商只言片語(yǔ)的提及，沒(méi)想到再聽(tīng)見(jiàn)發(fā)聲，已是憋出來(lái)個(gè)升級(jí)的時(shí)候：

現(xiàn)在DeepSeek R1已經(jīng)升級(jí)為最新的DeepSeek-R1-0528，用戶可通過(guò)官方網(wǎng)站、APP 或小程序進(jìn)入對(duì)話界面后，開(kāi)啟“深度思考”功能即可體驗(yàn)最新版本。API 也已同步更新，調(diào)用方式不變。

超強(qiáng)能力者再創(chuàng)國(guó)產(chǎn)模型評(píng)分新高

作為一個(gè)深度思考模型，本次升級(jí)自然是繞不開(kāi)深度思考能力的強(qiáng)化。具體而言，DeepSeek-R1-0528仍然使用的是去年12月發(fā)布的DeepSeek V3 Base模型作為基座模型進(jìn)行訓(xùn)練，但在后訓(xùn)練過(guò)程中投入了更多算力，以此達(dá)到了顯著提升模型思維深度與推理能力的效果。

根據(jù)官方披露，更新后的R1在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中取得了當(dāng)前國(guó)內(nèi)所有模型中首屈一指的優(yōu)異成績(jī)，并且在整體表現(xiàn)上已接近其他國(guó)際頂尖模型，如 o3 與 Gemini-2.5-Pro：

可以看到相較于舊版本R1，新版R1在復(fù)雜推理任務(wù)中的表現(xiàn)有非常顯著的提升，真正追平國(guó)際頂尖水平。具體在 AIME 2025測(cè)試中，新版模型準(zhǔn)確率由舊版的 70% 提升至 87.5%。根據(jù)官方解釋，這是得益于模型在推理過(guò)程中的思維深度增強(qiáng)：在 AIME 2025 測(cè)試集上，舊版模型平均每題使用 12K tokens，而新版模型平均每題使用 23K tokens，表明其在解題過(guò)程中進(jìn)行了更為詳盡和深入的思考。

同時(shí)，深度求索還基于DeepSeek-R1-0528的思維鏈，后訓(xùn)練了Qwen3-8B Base，得到了 DeepSeek-R1-0528-Qwen3-8B。而該8B模型在數(shù)學(xué)測(cè)試 AIME 2024 中僅次于DeepSeek-R1-0528，超越 Qwen3-8B（+10.0%），與 Qwen3-235B 相當(dāng)。再次證明了全新R1的強(qiáng)勁能力。

實(shí)測(cè)：肉眼可見(jiàn)的生成內(nèi)容提升

至于具體體驗(yàn)如何，我們一起來(lái)看看快速上手測(cè)試的結(jié)果。下圖是我讓全新DeepSeek R1進(jìn)行自我介紹的聊天過(guò)程：

可以看到現(xiàn)在的R1相比先前版本有了更流暢更清晰的回答過(guò)程，不論是思考鏈還是正式生成內(nèi)容，甚至有非常貼心的對(duì)比和總結(jié)，都用了一些特殊符號(hào)標(biāo)注出來(lái)。

這些充分的交互功能在過(guò)去的R1版本是所不曾體現(xiàn)，當(dāng)時(shí)大家還在調(diào)侃DeepSeek過(guò)于活人感，有一股機(jī)器人魔性的瘋癲美，但現(xiàn)在看來(lái)，全新R1的工具化進(jìn)程明顯，更有個(gè)人通用助手的味道，這在當(dāng)下強(qiáng)調(diào)agent通用處理能力的形勢(shì)下具有一定意義。

當(dāng)然除了針對(duì)深度思考生成結(jié)果本身提升來(lái)說(shuō)，這次也同步升級(jí)了許多其他的特點(diǎn)，比如針對(duì)翻譯內(nèi)容的優(yōu)化：

可以看見(jiàn)翻譯得非常準(zhǔn)確，而且非常有人味，當(dāng)我們要求翻譯Love loves to love love ，遵循信達(dá)雅時(shí)：

R1能夠自動(dòng)匹配到林語(yǔ)堂先生的語(yǔ)錄，并且能夠幫我們?nèi)?duì)比與直譯的差別，可謂是文科強(qiáng)者，這在先前版本的R1那個(gè)理工腦子是不存在的。

同樣的全新R1編程能力也不俗，像這里我們要求其為我們生成一個(gè)網(wǎng)頁(yè)：

prompt：你能為我創(chuàng)建一個(gè)基于情緒的食譜生成器嗎？它應(yīng)該詢問(wèn)用戶的情緒，然后根據(jù)他們擁有的食材推薦食譜。它應(yīng)該有明亮自然的主題，搭配纖細(xì)且美觀的字體，并且應(yīng)該是動(dòng)畫(huà)的和互動(dòng)的。不要使用紫色暗色調(diào)主題，主題就由你的創(chuàng)造力來(lái)決定。

可以看到質(zhì)量尚可，當(dāng)然R1并不是編程agent，生成的內(nèi)容無(wú)法自帶后端，但是這個(gè)前端編程能力已經(jīng)在所實(shí)際體驗(yàn)過(guò)的深度思考agent里屬于頭部水平了。

同時(shí)，在舊版R1的基礎(chǔ)上，更新后的 R1 模型針對(duì)議論文、小說(shuō)、散文等文體進(jìn)行了進(jìn)一步優(yōu)化，能夠輸出篇幅更長(zhǎng)、結(jié)構(gòu)內(nèi)容更完整的長(zhǎng)篇作品，同時(shí)呈現(xiàn)出更加貼近人類偏好的寫(xiě)作風(fēng)格，像這里我要求R1以端午和六一為背景寫(xiě)一篇抒情散文詩(shī)，首先散文詩(shī)這個(gè)格式的文章本來(lái)就不多見(jiàn)，其次我還特別要求以近代著名文學(xué)家端木蕻良的文風(fēng)來(lái)創(chuàng)作：

上下滑動(dòng)查看完整內(nèi)容

可以看見(jiàn)生成內(nèi)容文學(xué)氣質(zhì)直接拉爆了，標(biāo)題這個(gè)“端午與六一的斷章”就起得非常有意境，并且內(nèi)容辭藻在保證華麗的基礎(chǔ)上，多多添了白描的手法，保證了整體內(nèi)容散形不散的文種特點(diǎn)。

除了這些比較明顯的更新外，新版 DeepSeek R1 針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。與舊版相比，更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中，幻覺(jué)率降低了 45～50% 左右，能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。同時(shí)DeepSeek-R1-0528 支持工具調(diào)用（不支持在 thinking 中進(jìn)行工具調(diào)用）。雖然目前水平與 o3-High 以及 Claude 4 Sonnet 仍有差距，但Tau-Bench 測(cè)評(píng)成績(jī)?yōu)?airline 53.5% / retail 63.9%，已經(jīng)做到了OpenAI o1-high 相當(dāng)。

DeepSeek給模圈一個(gè)措手不及，模圈給DeepSeek一個(gè)強(qiáng)制愛(ài)

DeepSeek這一次的更新，API 已同步更新，接口與調(diào)用方式保持不變。新版 R1 API 仍支持查看模型思考過(guò)程，同時(shí)還增加了 Function Calling 和 JsonOutput 的支持。同時(shí)對(duì)新版 R1 API 中 max_tokens 參數(shù)的含義做了調(diào)整：現(xiàn)在 max_tokens用于限制模型單次輸出的總長(zhǎng)度（包括思考過(guò)程），默認(rèn)為 32K，最大為 64K。如果用戶對(duì)更長(zhǎng)的上下文長(zhǎng)度有需求，可以通過(guò)其他第三方平臺(tái)調(diào)用上下文長(zhǎng)度為 128K 的開(kāi)源版本 R1-0528 模型。

和之前的操作一樣，這次的模型也同步開(kāi)源。DeepSeek-R1-0528 與之前的 DeepSeek-R1 使用同樣的 base 模型，僅改進(jìn)了后訓(xùn)練方法。私有化部署時(shí)只需要更新 checkpoint 和 tokenizer_config.json（tool calls 相關(guān)變動(dòng)）。模型參數(shù)為 685B（其中 14B 為 MTP 層），開(kāi)源版本上下文長(zhǎng)度為 128K（網(wǎng)頁(yè)端、App 和 API 提供 64K 上下文）。與舊版本的 DeepSeek-R1 保持一致，此次我們的開(kāi)源倉(cāng)庫(kù)（包括模型權(quán)重）仍然統(tǒng)一采用 MIT License，并允許用戶利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。

就在DeepSeek發(fā)布全新R1的第二天，火山引擎和騰訊就前后腳更新了最新版：

很明顯各大廠商并沒(méi)有被這場(chǎng)突襲搞蒙圈，反倒是給了DeepSeek一個(gè)強(qiáng)制愛(ài)，可見(jiàn)現(xiàn)階段各家大廠對(duì)于行業(yè)最新的前沿技術(shù)跟進(jìn)非常用心。DeepSeek-R1-0528的思維鏈對(duì)于學(xué)術(shù)界推理模型的研究和工業(yè)界針對(duì)小模型的開(kāi)發(fā)都將具有重要意義。現(xiàn)階段已經(jīng)進(jìn)入大模型存續(xù)階段，誰(shuí)有絲毫懈怠就會(huì)被落下身位。半年已過(guò)，DeepSeek全新R1也正式拉開(kāi)了下半年的模圈大戰(zhàn)，期待未來(lái)行業(yè)的發(fā)展，特別是以后R2的來(lái)襲。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#DeepSeek-R1