點(diǎn)擊右上角微信好友
朋友圈
請(qǐng)使用瀏覽器分享功能進(jìn)行分享
henry 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
Nature封面認(rèn)證!DeepSeek R1成果,又拿下了最新殊榮。
就在最新的Nature新刊中,DeepSeek一舉成為首家登上《Nature》封面的中國(guó)大模型公司,創(chuàng)始人梁文鋒擔(dān)任通訊作者。
縱觀全球,之前也只有極少數(shù)如DeepMind者,憑借AlphaGo、AlphaFold有過(guò)類(lèi)似榮譽(yù)。
Nature版本的R1論文不僅首次披露了R1的訓(xùn)練成本——僅約29.4萬(wàn)美元(折合人民幣約 208 萬(wàn)),還進(jìn)一步補(bǔ)充了包括模型訓(xùn)練所使用的數(shù)據(jù)類(lèi)型及安全性的技術(shù)細(xì)節(jié)。
評(píng)審該論文的Hugging Face機(jī)器學(xué)習(xí)工程師Lewis Tunstall表示,R1是首個(gè)經(jīng)歷同行評(píng)審的大型語(yǔ)言模型,這是一個(gè)非常值得歡迎的先例。
而俄亥俄州立大學(xué)人工智能研究員Huan Sun更是盛贊R1 ,稱(chēng)其自發(fā)布以來(lái),幾乎影響了所有在大語(yǔ)言模型中使用強(qiáng)化學(xué)習(xí)的研究。
截至發(fā)文前,其數(shù)據(jù)如下:
谷歌學(xué)術(shù)引用:3596次Hugging Face 下載量:1090萬(wàn)次(開(kāi)源模型下載量第一)GitHub Star:91.1K
不過(guò)也是因?yàn)镈eepSeek,中國(guó)AI公司的下一篇工作,恐怕已經(jīng)不再滿(mǎn)足于 CVPR、ICLR、ICML這些AI頂會(huì)了,
是不是得對(duì)齊Nature、Science的封面了?
澄清訓(xùn)練細(xì)節(jié)
在這次的Nature版本中,DeepSeek在其最新的補(bǔ)充材料中對(duì)訓(xùn)練成本、數(shù)據(jù)及安全性進(jìn)行了進(jìn)一步的澄清。
在訓(xùn)練花費(fèi)方面, R1-Zero和R1都使用了512張H800GPU,分別訓(xùn)練了198個(gè)小時(shí)和80個(gè)小時(shí),以H800每GPU小時(shí)2美元的租賃價(jià)格換算的話,R1的總訓(xùn)練成本為29.4萬(wàn)美元。
要知道,R1可是實(shí)打?qū)嵉?60B參數(shù)的大模型。
相比之下,它不到30萬(wàn)美元的訓(xùn)練成本,直接讓那些動(dòng)輒燒掉上千萬(wàn)美元的同行們“抬不起頭”。
也難怪它在年初發(fā)布時(shí),會(huì)在美股掀起一場(chǎng)海嘯,讓那些關(guān)于“巨額投入才能打造頂級(jí)AI模型”的傳言不再那么漂亮。
(奧特曼:干脆報(bào)我身份證號(hào)得了)
此外,在數(shù)據(jù)來(lái)源方面,DeepSeek也是一舉打破了拿彼模型之輸出當(dāng)R1之輸入的傳聞。
根據(jù)補(bǔ)充材料,DeepSeek-R1的數(shù)據(jù)集包含數(shù)學(xué)、編程、stem、邏輯、通用等5個(gè)類(lèi)型的數(shù)據(jù)。
具體來(lái)說(shuō),數(shù)學(xué)數(shù)據(jù)集包含2.6萬(wàn)道定量推理題,包括數(shù)學(xué)考試題和競(jìng)賽題;
代碼數(shù)據(jù)集包含1.7萬(wàn)道算法競(jìng)賽題和8千道代碼修復(fù)問(wèn)題;
STEM數(shù)據(jù)集包含2.2萬(wàn)道選擇題,涵蓋物理、化學(xué)和生物等學(xué)科;
邏輯數(shù)據(jù)集包含真實(shí)問(wèn)題和合成問(wèn)題等共1.5萬(wàn)道題;
通用數(shù)據(jù)集包含6.6萬(wàn)道題,用于評(píng)估模型的有用性,涵蓋創(chuàng)意寫(xiě)作、文本編輯、事實(shí)問(wèn)答、角色扮演以及評(píng)估無(wú)害性等多種類(lèi)別。
在安全性方面,雖然開(kāi)源共享有助于技術(shù)在社區(qū)中的傳播,但同時(shí)也可能帶來(lái)被濫用的潛在風(fēng)險(xiǎn)。因此DeepSeek又一進(jìn)步發(fā)布了詳細(xì)的安全評(píng)估,涵蓋以下幾個(gè)方面;
DeepSeek-R官方服務(wù)的風(fēng)險(xiǎn)控制系統(tǒng)在六個(gè)公開(kāi)安全基準(zhǔn)上與其他最先進(jìn)模型的對(duì)比評(píng)估基于內(nèi)部安全測(cè)試集的分類(lèi)學(xué)研究R1模型的多語(yǔ)言安全性評(píng)估模型對(duì)越獄攻擊的魯棒性評(píng)估。
評(píng)估表明,DeepSeek-R1 模型的固有安全水平總體處于中等水平,與 GPT-4o相當(dāng),通過(guò)結(jié)合風(fēng)險(xiǎn)控制系統(tǒng)可進(jìn)一步提高模型的安全水平。
接下來(lái),我們來(lái)一起回顧一下這篇經(jīng)典論文
將強(qiáng)化學(xué)習(xí)應(yīng)用于大語(yǔ)言模型的里程碑
總的來(lái)說(shuō),DeepSeek-R1(zero)旨在解決大型語(yǔ)言模型在處理復(fù)雜問(wèn)題和對(duì)人工數(shù)據(jù)的依賴(lài),提出了一種純強(qiáng)化學(xué)習(xí)(RL)框架來(lái)提升大語(yǔ)言模型的推理能力。
這一方法不依賴(lài)人工標(biāo)注的推理軌跡,而是通過(guò)自我演化發(fā)展推理能力,核心在于獎(jiǎng)勵(lì)信號(hào)僅基于最終答案的正確性,而不對(duì)推理過(guò)程本身施加限制。
具體來(lái)說(shuō),他們使用DeepSeek-V3-Base作為基礎(chǔ)模型,并采用GRPO(Group Relative Policy Optimization)作為強(qiáng)化學(xué)習(xí)框架來(lái)提高模型在推理任務(wù)上的表現(xiàn)。
經(jīng)過(guò)數(shù)千步強(qiáng)化學(xué)習(xí)訓(xùn)練后,DeepSeek-R1-Zero 在推理基準(zhǔn)測(cè)試上表現(xiàn)出卓越性能。
例如,在AIME 2024上,pass@1分?jǐn)?shù)從15.6%提升至71.0%,通過(guò)多數(shù)表決進(jìn)一步提高至86.7%,與o1的表現(xiàn)相當(dāng)。
更進(jìn)一步,為了解決DeepSeek-R1-Zero 在可讀性和語(yǔ)言混合上的問(wèn)題,研究又引入DeepSeek-R1,采用少量冷啟動(dòng)數(shù)據(jù)和拒絕采樣、強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)相結(jié)合的多階段訓(xùn)練框架。
具體而言,團(tuán)隊(duì)首先收集數(shù)千條冷啟動(dòng)數(shù)據(jù),對(duì) DeepSeek-V3-Base 模型進(jìn)行微調(diào)。隨后,模型進(jìn)行了類(lèi)似 DeepSeek-R1-Zero 的面向推理的強(qiáng)化學(xué)習(xí)訓(xùn)練。
在強(qiáng)化學(xué)習(xí)接近收斂時(shí),團(tuán)隊(duì)通過(guò)在強(qiáng)化學(xué)習(xí)檢查點(diǎn)上進(jìn)行拒絕采樣,結(jié)合來(lái)自DeepSeek-V3在寫(xiě)作、事實(shí)問(wèn)答、自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù),生成新的SFT數(shù)據(jù),并重新訓(xùn)練DeepSeek-V3-Base模型。
經(jīng)過(guò)新數(shù)據(jù)微調(diào)后,模型還經(jīng)歷了覆蓋各種提示場(chǎng)景的額外的強(qiáng)化學(xué)習(xí)過(guò)程,DeepSeek-R1就由此而來(lái)。
實(shí)驗(yàn)表明,DeepSeek-R1與當(dāng)時(shí)的頂尖模型OpenAI-o1-1217不相上下。
此外,將大模型涌現(xiàn)出的推理模式用于指導(dǎo)并提升小模型的推理能力也成為了一種經(jīng)典方法。
論文中使用Qwen2.5-32B作為基礎(chǔ)模型,結(jié)果顯示,從DeepSeek-R1蒸餾出的性能,優(yōu)于直接在該基礎(chǔ)模型上應(yīng)用強(qiáng)化學(xué)習(xí)。
當(dāng)然,在開(kāi)拓性論文的基礎(chǔ)上,更讓人津津樂(lè)道、也贏得Nature盛贊的,是DeepSeek的透明性與開(kāi)源精神:
DeepSeek已在HuggingFace上公開(kāi)了DeepSeek-R1和DeepSeek-R1-Zero的模型權(quán)重,同時(shí)將基于Qwen2.5 和 Llama3 系列的蒸餾模型一并開(kāi)源,供社區(qū)自由使用。
回想年初DeepSeek在海外爆火時(shí),梁文鋒一句“中國(guó)AI不可能永遠(yuǎn)跟隨”的豪言壯志令人振奮。
如今,DeepSeek影響力獲得Nature封面認(rèn)可,如果AI研究機(jī)構(gòu)有S級(jí)認(rèn)可,那DeepSeek毫無(wú)疑問(wèn)已經(jīng)拿到了S級(jí)認(rèn)證。
下一個(gè),阿里通義、字節(jié)Seed、騰訊混元、百度文心、華為、智譜、Kimi、階躍……
Who?
[1]https://www.nature.com/articles/d41586-025-03015-6[2]https://www.nature.com/articles/s41586-025-09422-z#Sec4