中國(guó)大模型首登Nature封面！DeepSeek首次披露：R1訓(xùn)練只花200萬(wàn)

來(lái)源：{getone name="zzc/xinwenwang"/}2025-09-18 19:18:40

henry 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

Nature封面認(rèn)證！DeepSeek R1成果，又拿下了最新殊榮。

就在最新的Nature新刊中，DeepSeek一舉成為首家登上《Nature》封面的中國(guó)大模型公司，創(chuàng)始人梁文鋒擔(dān)任通訊作者。

縱觀全球，之前也只有極少數(shù)如DeepMind者，憑借AlphaGo、AlphaFold有過(guò)類(lèi)似榮譽(yù)。

Nature版本的R1論文不僅首次披露了R1的訓(xùn)練成本——僅約29.4萬(wàn)美元（折合人民幣約 208 萬(wàn)），還進(jìn)一步補(bǔ)充了包括模型訓(xùn)練所使用的數(shù)據(jù)類(lèi)型及安全性的技術(shù)細(xì)節(jié)。

評(píng)審該論文的Hugging Face機(jī)器學(xué)習(xí)工程師Lewis Tunstall表示，R1是首個(gè)經(jīng)歷同行評(píng)審的大型語(yǔ)言模型，這是一個(gè)非常值得歡迎的先例。

而俄亥俄州立大學(xué)人工智能研究員Huan Sun更是盛贊R1 ，稱(chēng)其自發(fā)布以來(lái)，幾乎影響了所有在大語(yǔ)言模型中使用強(qiáng)化學(xué)習(xí)的研究。

截至發(fā)文前，其數(shù)據(jù)如下：

谷歌學(xué)術(shù)引用：3596次Hugging Face 下載量：1090萬(wàn)次（開(kāi)源模型下載量第一）GitHub Star：91.1K

不過(guò)也是因?yàn)镈eepSeek，中國(guó)AI公司的下一篇工作，恐怕已經(jīng)不再滿(mǎn)足于 CVPR、ICLR、ICML這些AI頂會(huì)了，

是不是得對(duì)齊Nature、Science的封面了？

澄清訓(xùn)練細(xì)節(jié)

在這次的Nature版本中，DeepSeek在其最新的補(bǔ)充材料中對(duì)訓(xùn)練成本、數(shù)據(jù)及安全性進(jìn)行了進(jìn)一步的澄清。

在訓(xùn)練花費(fèi)方面， R1-Zero和R1都使用了512張H800GPU，分別訓(xùn)練了198個(gè)小時(shí)和80個(gè)小時(shí)，以H800每GPU小時(shí)2美元的租賃價(jià)格換算的話，R1的總訓(xùn)練成本為29.4萬(wàn)美元。

要知道，R1可是實(shí)打?qū)嵉?60B參數(shù)的大模型。

相比之下，它不到30萬(wàn)美元的訓(xùn)練成本，直接讓那些動(dòng)輒燒掉上千萬(wàn)美元的同行們“抬不起頭”。

也難怪它在年初發(fā)布時(shí)，會(huì)在美股掀起一場(chǎng)海嘯，讓那些關(guān)于“巨額投入才能打造頂級(jí)AI模型”的傳言不再那么漂亮。

（奧特曼：干脆報(bào)我身份證號(hào)得了）

此外，在數(shù)據(jù)來(lái)源方面，DeepSeek也是一舉打破了拿彼模型之輸出當(dāng)R1之輸入的傳聞。

根據(jù)補(bǔ)充材料，DeepSeek-R1的數(shù)據(jù)集包含數(shù)學(xué)、編程、stem、邏輯、通用等5個(gè)類(lèi)型的數(shù)據(jù)。

具體來(lái)說(shuō)，數(shù)學(xué)數(shù)據(jù)集包含2.6萬(wàn)道定量推理題，包括數(shù)學(xué)考試題和競(jìng)賽題；

代碼數(shù)據(jù)集包含1.7萬(wàn)道算法競(jìng)賽題和8千道代碼修復(fù)問(wèn)題；

STEM數(shù)據(jù)集包含2.2萬(wàn)道選擇題，涵蓋物理、化學(xué)和生物等學(xué)科；

邏輯數(shù)據(jù)集包含真實(shí)問(wèn)題和合成問(wèn)題等共1.5萬(wàn)道題；

通用數(shù)據(jù)集包含6.6萬(wàn)道題，用于評(píng)估模型的有用性，涵蓋創(chuàng)意寫(xiě)作、文本編輯、事實(shí)問(wèn)答、角色扮演以及評(píng)估無(wú)害性等多種類(lèi)別。

在安全性方面，雖然開(kāi)源共享有助于技術(shù)在社區(qū)中的傳播，但同時(shí)也可能帶來(lái)被濫用的潛在風(fēng)險(xiǎn)。因此DeepSeek又一進(jìn)步發(fā)布了詳細(xì)的安全評(píng)估，涵蓋以下幾個(gè)方面；

DeepSeek-R官方服務(wù)的風(fēng)險(xiǎn)控制系統(tǒng)在六個(gè)公開(kāi)安全基準(zhǔn)上與其他最先進(jìn)模型的對(duì)比評(píng)估基于內(nèi)部安全測(cè)試集的分類(lèi)學(xué)研究R1模型的多語(yǔ)言安全性評(píng)估模型對(duì)越獄攻擊的魯棒性評(píng)估。

評(píng)估表明，DeepSeek-R1 模型的固有安全水平總體處于中等水平，與 GPT-4o相當(dāng)，通過(guò)結(jié)合風(fēng)險(xiǎn)控制系統(tǒng)可進(jìn)一步提高模型的安全水平。

接下來(lái)，我們來(lái)一起回顧一下這篇經(jīng)典論文

將強(qiáng)化學(xué)習(xí)應(yīng)用于大語(yǔ)言模型的里程碑

總的來(lái)說(shuō)，DeepSeek-R1（zero）旨在解決大型語(yǔ)言模型在處理復(fù)雜問(wèn)題和對(duì)人工數(shù)據(jù)的依賴(lài)，提出了一種純強(qiáng)化學(xué)習(xí)（RL）框架來(lái)提升大語(yǔ)言模型的推理能力。

這一方法不依賴(lài)人工標(biāo)注的推理軌跡，而是通過(guò)自我演化發(fā)展推理能力，核心在于獎(jiǎng)勵(lì)信號(hào)僅基于最終答案的正確性，而不對(duì)推理過(guò)程本身施加限制。

具體來(lái)說(shuō)，他們使用DeepSeek-V3-Base作為基礎(chǔ)模型，并采用GRPO（Group Relative Policy Optimization）作為強(qiáng)化學(xué)習(xí)框架來(lái)提高模型在推理任務(wù)上的表現(xiàn)。

經(jīng)過(guò)數(shù)千步強(qiáng)化學(xué)習(xí)訓(xùn)練后，DeepSeek-R1-Zero 在推理基準(zhǔn)測(cè)試上表現(xiàn)出卓越性能。

例如，在AIME 2024上，pass@1分?jǐn)?shù)從15.6%提升至71.0%，通過(guò)多數(shù)表決進(jìn)一步提高至86.7%，與o1的表現(xiàn)相當(dāng)。

更進(jìn)一步，為了解決DeepSeek-R1-Zero 在可讀性和語(yǔ)言混合上的問(wèn)題，研究又引入DeepSeek-R1，采用少量冷啟動(dòng)數(shù)據(jù)和拒絕采樣、強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)相結(jié)合的多階段訓(xùn)練框架。

具體而言，團(tuán)隊(duì)首先收集數(shù)千條冷啟動(dòng)數(shù)據(jù)，對(duì) DeepSeek-V3-Base 模型進(jìn)行微調(diào)。隨后，模型進(jìn)行了類(lèi)似 DeepSeek-R1-Zero 的面向推理的強(qiáng)化學(xué)習(xí)訓(xùn)練。

在強(qiáng)化學(xué)習(xí)接近收斂時(shí)，團(tuán)隊(duì)通過(guò)在強(qiáng)化學(xué)習(xí)檢查點(diǎn)上進(jìn)行拒絕采樣，結(jié)合來(lái)自DeepSeek-V3在寫(xiě)作、事實(shí)問(wèn)答、自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù)，生成新的SFT數(shù)據(jù)，并重新訓(xùn)練DeepSeek-V3-Base模型。

經(jīng)過(guò)新數(shù)據(jù)微調(diào)后，模型還經(jīng)歷了覆蓋各種提示場(chǎng)景的額外的強(qiáng)化學(xué)習(xí)過(guò)程，DeepSeek-R1就由此而來(lái)。

實(shí)驗(yàn)表明，DeepSeek-R1與當(dāng)時(shí)的頂尖模型OpenAI-o1-1217不相上下。

此外，將大模型涌現(xiàn)出的推理模式用于指導(dǎo)并提升小模型的推理能力也成為了一種經(jīng)典方法。

論文中使用Qwen2.5-32B作為基礎(chǔ)模型，結(jié)果顯示，從DeepSeek-R1蒸餾出的性能，優(yōu)于直接在該基礎(chǔ)模型上應(yīng)用強(qiáng)化學(xué)習(xí)。

當(dāng)然，在開(kāi)拓性論文的基礎(chǔ)上，更讓人津津樂(lè)道、也贏得Nature盛贊的，是DeepSeek的透明性與開(kāi)源精神：

DeepSeek已在HuggingFace上公開(kāi)了DeepSeek-R1和DeepSeek-R1-Zero的模型權(quán)重，同時(shí)將基于Qwen2.5 和 Llama3 系列的蒸餾模型一并開(kāi)源，供社區(qū)自由使用。

回想年初DeepSeek在海外爆火時(shí)，梁文鋒一句“中國(guó)AI不可能永遠(yuǎn)跟隨”的豪言壯志令人振奮。

如今，DeepSeek影響力獲得Nature封面認(rèn)可，如果AI研究機(jī)構(gòu)有S級(jí)認(rèn)可，那DeepSeek毫無(wú)疑問(wèn)已經(jīng)拿到了S級(jí)認(rèn)證。

下一個(gè)，阿里通義、字節(jié)Seed、騰訊混元、百度文心、華為、智譜、Kimi、階躍……

Who？

[1]https://www.nature.com/articles/d41586-025-03015-6[2]https://www.nature.com/articles/s41586-025-09422-z#Sec4

[責(zé)編：{getone name="zzc/mingzi"/}]

閱讀剩余全文（）

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

全部導(dǎo)航

中國(guó)大模型首登Nature封面！DeepSeek首次披露：R1訓(xùn)練只花200萬(wàn)

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

全部導(dǎo)航

中國(guó)大模型首登Nature封面！DeepSeek首次披露：R1訓(xùn)練只花200萬(wàn)

中國(guó)大模型首登Nature封面！DeepSeek首次披露：R1訓(xùn)練只花200萬(wàn)