出品 | 搜狐科技 作者 | 梁昌均 在DeepSeek-V3模型更新兩個月后,DeepSeek-R1也迎來低調(diào)升級。 5月29日晚,DeepSeek在公眾號正式發(fā)文披露DeepSeek-R1升級為DeepSeek-R1-0528,并發(fā)布官方測評。 此次更新后的新模型思考更深,推理更強,主流基準(zhǔn)測評在國內(nèi)所有模型中首屈一指,整體表現(xiàn)接近OpenAI的o3、谷歌的Gemini-2.5-Pro等國際頂尖模型。 前一天晚間,DeepSeek官方在用戶交流群中宣布R1推理模型完成小版本試升級,29日凌晨則在開源社區(qū)公開了模型及權(quán)重,并陸續(xù)更新了模型卡等更多信息。 這次低調(diào)的更新在海內(nèi)外開發(fā)者社區(qū)和社交平臺仍引發(fā)不小關(guān)注。綜合多位網(wǎng)友體驗,DeepSeek-R1-0528在編程、邏輯推理、交互能力等方面均有顯著提升。 “這個小升級實際上是一個重大的飛躍”,這是不少人的實測體驗。隨著DeepSeek-R1新模型登頂全球最強開源模型,網(wǎng)友們也紛紛發(fā)問:DeepSeek-R2,還有多遠(yuǎn)? 整體性能接近o3,幻覺率降低45%-50% DeepSeek發(fā)布的測評結(jié)果顯示,更新后的R1模型在數(shù)學(xué)、編程與通用邏輯等多個基準(zhǔn)測評中取得了當(dāng)前國內(nèi)所有模型中首屈一指的優(yōu)異成績,并在整體表現(xiàn)上已接近其他國際頂尖模型,如o3與Gemini-2.5-Pro。 官方公布的測試顯示,DeepSeek-R1-0528在數(shù)學(xué)競賽、科學(xué)、代碼生成和編輯,以及推理與百科知識等主流基準(zhǔn)上的表現(xiàn),相較DeepSeek-R1均有明顯提升。 DeepSeek提到,相較于舊版R1,新版模型在復(fù)雜推理任務(wù)中的表現(xiàn)有了顯著改進。如在數(shù)學(xué)測試AIME 2025中,準(zhǔn)確率由70%提升至87.5%,這得益于模型在推理過程中的思維深度增強。 在該測試中,舊版模型平均每題使用12K tokens,而新版模型平均每題使用23K tokens,表明其在解題過程中進行了更為詳盡和深入的思考。 更為重要的是,DeepSeek-R1-0528在這六大基準(zhǔn)測試中均超過阿里的Qwen3-235B,數(shù)學(xué)和代碼生成能力也超過谷歌Gemini-2.5-Pro-0506。但整體來看,該模型與o3相比仍還有微弱差距。 其它更新方面,新版DeepSeek-R1針對幻覺問題進行了優(yōu)化。此前,在Vectara HHEM人工智能幻覺測試(通過檢測語言模型生成內(nèi)容是否與原始證據(jù)一致,從而評估模型的幻覺率)中,DeepSeek-R1幻覺率為14.3%,是DeepSeek-V3的近4倍,也遠(yuǎn)超行業(yè)平均水平。 與舊版相比,此次更新后的模型在改寫潤色、總結(jié)摘要、閱讀理解等場景中,幻覺率降低45%-50%左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。 在創(chuàng)意寫作方面,更新后的R1模型針對議論文、小說、散文等文體進行了進一步優(yōu)化,能夠輸出篇幅更長、結(jié)構(gòu)內(nèi)容更完整的長篇作品,同時呈現(xiàn)出更加貼近人類偏好的寫作風(fēng)格。 DeepSeek-R1-0528還支持工具調(diào)用(不支持在thinking中進行),其在Tau-Bench測評成績?yōu)锳irline 53.5% / Retail 63.9%,與OpenAI-o1-high相當(dāng),但與o3-High及Claude 4 Sonnet 仍有差距。 Tau-Bench是OpenAI董事會主席布雷特·泰勒(Bret Taylor)創(chuàng)辦的公司Sierra推出的評估AI智能體在復(fù)雜現(xiàn)實任務(wù)中與用戶和工具交互的能力,主要設(shè)計了Retail(零售場景)和Airline(航空場景)兩個垂直領(lǐng)域的評測。 此外,新版R1 API仍支持查看模型思考過程,同時增加了Function Calling和JsonOutput的支持。Function Calling也就是函數(shù)調(diào)用,是一種允許AI模型在特定任務(wù)中調(diào)用預(yù)定義函數(shù)或API的機制,用于增強模型的處理能力和功能,是大模型與外部世界交互的關(guān)鍵技術(shù)。 OpenAI的GPT模型、百度文心模型等主流模型均支持Function Calling。這也意味著,DeepSeek-R1-0528模型將增強與外部工具交互的能力,有助于智能體應(yīng)用開發(fā)。 DeepSeek還表示,DeepSeek-R1-0528在前端代碼生成、角色扮演等領(lǐng)域的能力也均有更新和提升。 在代碼能力方面,代碼測試平臺Live CodeBench顯示,在最近一年內(nèi)的模型評測中,DeepSeek-R1-0528性能僅次于OpenAI在4月發(fā)布的o4 mini和o3-high版本。 在模型上下文長度方面,R1新模型在官方網(wǎng)站、小程序、App端和API中的模型上下文長度仍為64K。如果用戶對更長的上下文長度有需求,可以通過其他第三方平臺調(diào)用上下文長度為128K的開源版本R1-0528模型。 DeepSeek還對DeepSeek-R1-0528進行了蒸餾,通過蒸餾該模型的思維鏈后訓(xùn)練Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B,且仍具備比較強大的推理能力。 比如,該模型在數(shù)學(xué)測試AIME 2024中的表現(xiàn)僅次于DeepSeek-R1-0528,阿里超過的Qwen3-8B和Qwen3-32B,以及微軟的Phi-4-14B等模型,與參數(shù)更大的Qwen3-235B相當(dāng)。 “我們相信,DeepSeek-R1-0528的思維鏈對于學(xué)術(shù)界推理模型的研究和工業(yè)界針對小模型的開發(fā)都將具有重要意義?!盌eepSeek表示。 目前,該模型目前已在魔搭社區(qū)和HuggingFace開源,沿用寬松的MIT License 許可,DeepSeek-R1系列(包括Base和Chat)都支持商業(yè)使用和蒸餾。 “這是開源的又一次巨大勝利”,“開源的另一個里程碑”,有開發(fā)者評論到。 DeepSeek行業(yè)地位和谷歌拉平,重回全球開源巔峰 雖然DeepSeek官方稱這次是小版本升級,但依然在國內(nèi)外社區(qū)引發(fā)不小關(guān)注。 專注于AI基準(zhǔn)測試和分析的獨立平臺Artificial Analysis發(fā)文表示,DeepSeek最新模型超越xAI、Meta和Anthropic,與谷歌并列成為世界第二領(lǐng)先的AI實驗室,并成為無可爭議的開源領(lǐng)導(dǎo)者。 該機構(gòu)稱,DeepSeek-R1-0528在Intelligence Index(涵蓋通用能力、數(shù)學(xué)、科學(xué)、代碼等七項主流基準(zhǔn)測試)中的得分從60躍升至68,這一增長幅度與OpenAI的o1到o3(從62到70)的提升相當(dāng)。 根據(jù)該機構(gòu)發(fā)布的最新排名,DeepSeek-R1-0528綜合智能水平超過了Anthropic的Claude4-Sonnet、阿里的Qwen 3-253B、谷歌Gemini 2.5 Flash、xAI的Grok 3 mini (high)等推理模型,與谷歌Gemini 2.5 Pro持平,與OpenAI的o3和o4-mini(high)僅有兩分之差,奪回全球最強開源模型的地位。 過去幾年,全球最領(lǐng)先的模型在OpenAI、Gemini、Grok等模型中輪換,有網(wǎng)友稱現(xiàn)在又輪到了DeepSeek了。 Artificial Analysis還透露,DeepSeek-R1-0528在完成該項評估時使用了9900萬tokens,比最初R1的7100萬tokens多出40%,即新版模型思考時間更長。“但這不是我們見過的最高token使用量,Gemini 2.5 Pro的token使用量比R1-0528還多出30%?!?/p> 不少網(wǎng)友在實測中也感受到該模型的思維鏈變得更長,推理思考更有深度,部分復(fù)雜任務(wù)甚至耗時可達30分鐘至60分鐘,這也引發(fā)了其過度思考的質(zhì)疑。 “希望可以控制思考程度,不然實用性有點低,在各種場景里用起來挺麻煩。”有開發(fā)者提到。 該機構(gòu)還認(rèn)為,DeepSeek-R1-0528的進步帶來了三個重要啟示。一是開源與閉源模型的差距縮小,開源模型一直保持著與專有模型相當(dāng)?shù)闹悄芴嵘?/p> 二是這反映出中美之間AI競爭激烈,中國AI實驗室的模型幾乎完全趕上了美國同行,這一模型的發(fā)布延續(xù)了這一趨勢。 三是強化學(xué)習(xí)推動改進,DeepSeek在保持原有架構(gòu)和預(yù)訓(xùn)練的情況下,通過強化學(xué)習(xí)技術(shù)實現(xiàn)了顯著的智能提升。 OpenAI此前披露,o1到o3的強化學(xué)習(xí)計算量增加了10倍,而DeepSeek已經(jīng)證明他們能夠跟上OpenAI的強化學(xué)習(xí)的計算量增長。 “與預(yù)訓(xùn)練相比,擴大強化學(xué)習(xí)的規(guī)模所需的計算量更少,這是一種實現(xiàn)智能提升的高效方式,對于計算資源較少的AI實驗室來說尤其有價值?!?/p> 后訓(xùn)練推理和高質(zhì)量數(shù)據(jù)共同發(fā)力,R2還有多遠(yuǎn)? 很大程度來說,R1新模型的改進很大程度仍歸功于DeepSeek在后訓(xùn)練上的進一步優(yōu)化。 根據(jù)DeepSeek的說法,DeepSeek-R1-0528是以2024年12月所發(fā)布的DeepSeek V3 Base模型作為基座,通過在后訓(xùn)練過程中投入更多算力和引入算法優(yōu)化機制,從而顯著提升了模型的思維深度與推理能力。 此前,DeepSeek創(chuàng)始人梁文鋒署名的團隊發(fā)布了新論文,以DeepSeek-V3為代表,深入解讀了DeepSeek在硬件架構(gòu)和模型設(shè)計方面的關(guān)鍵創(chuàng)新,包括內(nèi)存優(yōu)化、算力優(yōu)化、通信優(yōu)化和算力加速,從而為實現(xiàn)具有成本效益的大規(guī)模訓(xùn)練和推理提供了思路。 有AI從業(yè)者表示,DeepSeek-R1-0528此次依然是基于原來的V3的基模進行訓(xùn)練,但性能提升明顯,而且蒸餾的小模型還能打敗更大模型,證明了后訓(xùn)練的無限潛力。 “強化學(xué)習(xí)是一種提高AI性能的強大技術(shù),它的計算成本也很高。但Deepseek在強化學(xué)習(xí)驅(qū)動的改進方面的成功表明,擴展強化學(xué)習(xí)可能比擴展預(yù)訓(xùn)練更有效?!?/p> 國內(nèi)頭部大模型核心算法研究員AI Dance還對搜狐科技提到,此次R1新模型改進比較明顯的是代碼能力,還離不開高質(zhì)量的數(shù)據(jù)。 “DeepSeek-R1-0528成功的范式,關(guān)鍵在于更多更高質(zhì)量的后訓(xùn)練數(shù)據(jù),而不是迷信推理模式。這不意味著強化學(xué)習(xí)推理完全沒用,二者不是非此即彼,而是迭代提升。推理模式提供思考框架,高質(zhì)量數(shù)據(jù)提供了具體的知識和經(jīng)驗,兩者結(jié)合才能達到最好效果。” 該人士認(rèn)為,現(xiàn)在大家都在卷推理,但忽略了數(shù)據(jù)質(zhì)量這個更樸素的東西。DeepSeek-R1-0528此次給大家也提了個醒,即高質(zhì)量的后訓(xùn)練數(shù)據(jù)的邊際收益很高。 兩個月前,DeepSeek宣布V3模型更新升級到DeepSeek-V3-0324,其在編程能力、數(shù)學(xué)推理、創(chuàng)造性任務(wù)等方面進一步優(yōu)化,當(dāng)時被評為全球“最強非推理模型”。 此次隨著R1模型也迎來更新,再次引發(fā)網(wǎng)友對R2的關(guān)注。“這不是個小升級,現(xiàn)在看來暫時不會看到R2”,前述研究員也預(yù)測可能要等V4發(fā)布后才會有R2。 目前在社區(qū)平臺有不少關(guān)于R2的消息流出,包括參數(shù)規(guī)模將翻倍提升到1.2萬億,成本將大幅下降,預(yù)計今年第三季度推出。不過,這些消息未得到DeepSeek官方證實。 DeepSeek方面最新在用戶群中表示,目前暫不對外進行項目合作,不提供私有化部署及相關(guān)支持服務(wù),并表示“將集中研發(fā)精力奉上更強的模型,敬請期待”。這意味著DeepSeek依然不考慮商業(yè)化,而是專注研發(fā)。 網(wǎng)友們也似乎總結(jié)出DeepSeek的發(fā)布規(guī)律:逢重要節(jié)假日前更新。下一個重要節(jié)假日是重合在一起的中秋和國慶,看看屆時DeepSeek又會放出什么大招吧。 |
|