中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

DeepSeek埋頭“小更新”,又打了模圈一個(gè)措手不及

2025-05-31 17:42
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

作者|參商

編輯|星奈

媒體|AI大模型工場(chǎng)

29號(hào),深度求索趕在端午假期到來(lái)前正式完成了DeepSeek R1模型的小版本升級(jí),消息一出模圈嘩然。自從2月份紅遍國(guó)內(nèi)外后DeepSeek一直是以模型供應(yīng)商的身份活躍在大模型圈的“幕后”版塊,鮮少有在一線露面的機(jī)會(huì),更多的是各家采購(gòu)商只言片語(yǔ)的提及,沒(méi)想到再聽(tīng)見(jiàn)發(fā)聲,已是憋出來(lái)個(gè)升級(jí)的時(shí)候:

現(xiàn)在DeepSeek R1已經(jīng)升級(jí)為最新的DeepSeek-R1-0528,用戶可通過(guò)官方網(wǎng)站、APP 或小程序進(jìn)入對(duì)話界面后,開(kāi)啟“深度思考”功能即可體驗(yàn)最新版本。API 也已同步更新,調(diào)用方式不變。

01

超強(qiáng)能力者再創(chuàng)國(guó)產(chǎn)模型評(píng)分新高

作為一個(gè)深度思考模型,本次升級(jí)自然是繞不開(kāi)深度思考能力的強(qiáng)化。具體而言,DeepSeek-R1-0528仍然使用的是去年12月發(fā)布的DeepSeek V3 Base模型作為基座模型進(jìn)行訓(xùn)練,但在后訓(xùn)練過(guò)程中投入了更多算力,以此達(dá)到了顯著提升模型思維深度與推理能力的效果。

根據(jù)官方披露,更新后的R1在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中取得了當(dāng)前國(guó)內(nèi)所有模型中首屈一指的優(yōu)異成績(jī),并且在整體表現(xiàn)上已接近其他國(guó)際頂尖模型,如 o3 與 Gemini-2.5-Pro:

可以看到相較于舊版本R1,新版R1在復(fù)雜推理任務(wù)中的表現(xiàn)有非常顯著的提升,真正追平國(guó)際頂尖水平。具體在 AIME 2025測(cè)試中,新版模型準(zhǔn)確率由舊版的 70% 提升至 87.5%。根據(jù)官方解釋,這是得益于模型在推理過(guò)程中的思維深度增強(qiáng):在 AIME 2025 測(cè)試集上,舊版模型平均每題使用 12K tokens,而新版模型平均每題使用 23K tokens,表明其在解題過(guò)程中進(jìn)行了更為詳盡和深入的思考。

同時(shí),深度求索還基于DeepSeek-R1-0528的思維鏈,后訓(xùn)練了Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。而該8B模型在數(shù)學(xué)測(cè)試 AIME 2024 中僅次于DeepSeek-R1-0528,超越 Qwen3-8B(+10.0%),與 Qwen3-235B 相當(dāng)。再次證明了全新R1的強(qiáng)勁能力。

02

實(shí)測(cè):肉眼可見(jiàn)的生成內(nèi)容提升

至于具體體驗(yàn)如何,我們一起來(lái)看看快速上手測(cè)試的結(jié)果。下圖是我讓全新DeepSeek R1進(jìn)行自我介紹的聊天過(guò)程:

可以看到現(xiàn)在的R1相比先前版本有了更流暢更清晰的回答過(guò)程,不論是思考鏈還是正式生成內(nèi)容,甚至有非常貼心的對(duì)比和總結(jié),都用了一些特殊符號(hào)標(biāo)注出來(lái)。

這些充分的交互功能在過(guò)去的R1版本是所不曾體現(xiàn),當(dāng)時(shí)大家還在調(diào)侃DeepSeek過(guò)于活人感,有一股機(jī)器人魔性的瘋癲美,但現(xiàn)在看來(lái),全新R1的工具化進(jìn)程明顯,更有個(gè)人通用助手的味道,這在當(dāng)下強(qiáng)調(diào)agent通用處理能力的形勢(shì)下具有一定意義。

當(dāng)然除了針對(duì)深度思考生成結(jié)果本身提升來(lái)說(shuō),這次也同步升級(jí)了許多其他的特點(diǎn),比如針對(duì)翻譯內(nèi)容的優(yōu)化:

可以看見(jiàn)翻譯得非常準(zhǔn)確,而且非常有人味,當(dāng)我們要求翻譯Love loves to love love ,遵循信達(dá)雅時(shí):

R1能夠自動(dòng)匹配到林語(yǔ)堂先生的語(yǔ)錄,并且能夠幫我們?nèi)?duì)比與直譯的差別,可謂是文科強(qiáng)者,這在先前版本的R1那個(gè)理工腦子是不存在的。

同樣的全新R1編程能力也不俗,像這里我們要求其為我們生成一個(gè)網(wǎng)頁(yè):

prompt:你能為我創(chuàng)建一個(gè)基于情緒的食譜生成器嗎?它應(yīng)該詢問(wèn)用戶的情緒,然后根據(jù)他們擁有的食材推薦食譜。它應(yīng)該有明亮自然的主題,搭配纖細(xì)且美觀的字體,并且應(yīng)該是動(dòng)畫(huà)的和互動(dòng)的。不要使用紫色暗色調(diào)主題,主題就由你的創(chuàng)造力來(lái)決定。

可以看到質(zhì)量尚可,當(dāng)然R1并不是編程agent,生成的內(nèi)容無(wú)法自帶后端,但是這個(gè)前端編程能力已經(jīng)在所實(shí)際體驗(yàn)過(guò)的深度思考agent里屬于頭部水平了。

同時(shí),在舊版R1的基礎(chǔ)上,更新后的 R1 模型針對(duì)議論文、小說(shuō)、散文等文體進(jìn)行了進(jìn)一步優(yōu)化,能夠輸出篇幅更長(zhǎng)、結(jié)構(gòu)內(nèi)容更完整的長(zhǎng)篇作品,同時(shí)呈現(xiàn)出更加貼近人類偏好的寫(xiě)作風(fēng)格,像這里我要求R1以端午和六一為背景寫(xiě)一篇抒情散文詩(shī),首先散文詩(shī)這個(gè)格式的文章本來(lái)就不多見(jiàn),其次我還特別要求以近代著名文學(xué)家端木蕻良的文風(fēng)來(lái)創(chuàng)作:

上下滑動(dòng)查看完整內(nèi)容

可以看見(jiàn)生成內(nèi)容文學(xué)氣質(zhì)直接拉爆了,標(biāo)題這個(gè)“端午與六一的斷章”就起得非常有意境,并且內(nèi)容辭藻在保證華麗的基礎(chǔ)上,多多添了白描的手法,保證了整體內(nèi)容散形不散的文種特點(diǎn)。

除了這些比較明顯的更新外,新版 DeepSeek R1 針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。與舊版相比,更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低了 45~50% 左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。同時(shí)DeepSeek-R1-0528 支持工具調(diào)用(不支持在 thinking 中進(jìn)行工具調(diào)用)。雖然目前水平與 o3-High 以及 Claude 4 Sonnet 仍有差距,但Tau-Bench 測(cè)評(píng)成績(jī)?yōu)?airline 53.5% / retail 63.9%,已經(jīng)做到了OpenAI o1-high 相當(dāng)。

03

DeepSeek給模圈一個(gè)措手不及,模圈給DeepSeek一個(gè)強(qiáng)制愛(ài)

DeepSeek這一次的更新,API 已同步更新,接口與調(diào)用方式保持不變。新版 R1 API 仍支持查看模型思考過(guò)程,同時(shí)還增加了 Function Calling 和 JsonOutput 的支持。同時(shí)對(duì)新版 R1 API 中 max_tokens 參數(shù)的含義做了調(diào)整:現(xiàn)在 max_tokens用于限制模型單次輸出的總長(zhǎng)度(包括思考過(guò)程),默認(rèn)為 32K,最大為 64K。如果用戶對(duì)更長(zhǎng)的上下文長(zhǎng)度有需求,可以通過(guò)其他第三方平臺(tái)調(diào)用上下文長(zhǎng)度為 128K 的開(kāi)源版本 R1-0528 模型。

和之前的操作一樣,這次的模型也同步開(kāi)源。DeepSeek-R1-0528 與之前的 DeepSeek-R1 使用同樣的 base 模型,僅改進(jìn)了后訓(xùn)練方法。私有化部署時(shí)只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相關(guān)變動(dòng))。模型參數(shù)為 685B(其中 14B 為 MTP 層),開(kāi)源版本上下文長(zhǎng)度為 128K(網(wǎng)頁(yè)端、App 和 API 提供 64K 上下文)。與舊版本的 DeepSeek-R1 保持一致,此次我們的開(kāi)源倉(cāng)庫(kù)(包括模型權(quán)重)仍然統(tǒng)一采用 MIT License,并允許用戶利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。

就在DeepSeek發(fā)布全新R1的第二天,火山引擎和騰訊就前后腳更新了最新版:

很明顯各大廠商并沒(méi)有被這場(chǎng)突襲搞蒙圈,反倒是給了DeepSeek一個(gè)強(qiáng)制愛(ài),可見(jiàn)現(xiàn)階段各家大廠對(duì)于行業(yè)最新的前沿技術(shù)跟進(jìn)非常用心。DeepSeek-R1-0528的思維鏈對(duì)于學(xué)術(shù)界推理模型的研究和工業(yè)界針對(duì)小模型的開(kāi)發(fā)都將具有重要意義。現(xiàn)階段已經(jīng)進(jìn)入大模型存續(xù)階段,誰(shuí)有絲毫懈怠就會(huì)被落下身位。半年已過(guò),DeepSeek全新R1也正式拉開(kāi)了下半年的模圈大戰(zhàn),期待未來(lái)行業(yè)的發(fā)展,特別是以后R2的來(lái)襲。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋