DeepSeek R1 論文《DeepSeek-R1 incentivizes reasoning in LLMsthrough reinforcement learning》登上了nature 封面,梁文鋒是通訊作者,這是首個(gè)經(jīng)過(guò)同行評(píng)議的具有全球影響力的LLM
這篇論文在今年2月份提交,今天終于見(jiàn)刊了
Nature 今天這篇論文更新了今年一月發(fā)布的預(yù)印本,該預(yù)印本描述了DeepSeek如何增強(qiáng)一個(gè)標(biāo)準(zhǔn)的大語(yǔ)言模型(LLM)來(lái)處理推理任務(wù)。其補(bǔ)充材料首次詳細(xì)披露了R1的訓(xùn)練成本:僅相當(dāng)于29.4萬(wàn)美元。R1所基于的基礎(chǔ)LLM花費(fèi)了約600萬(wàn)美元,這筆費(fèi)用是在此基礎(chǔ)上的額外成本,但總金額仍遠(yuǎn)低于外界猜測(cè)的競(jìng)爭(zhēng)對(duì)手模型數(shù)千萬(wàn)美元的成本。R1主要使用英偉達(dá)的H800芯片進(jìn)行訓(xùn)練
截至目前,R1是AI社區(qū)平臺(tái)Hugging Face上最受歡迎的同類(lèi)模型,下載量已達(dá)1090萬(wàn)次
嚴(yán)格的審查
R1被認(rèn)為是首個(gè)經(jīng)歷同行評(píng)審過(guò)程的重要LLM?!斑@是一個(gè)非常值得歡迎的先例,”《自然》論文的審稿人之一、Hugging Face的機(jī)器學(xué)習(xí)工程師Lewis Tunstall說(shuō)。“如果我們沒(méi)有這種將大部分過(guò)程公之于眾的規(guī)范,就很難評(píng)估這些系統(tǒng)是否會(huì)帶來(lái)風(fēng)險(xiǎn)?!?/p>
為回應(yīng)同行評(píng)審的意見(jiàn),DeepSeek團(tuán)隊(duì)減少了描述中的擬人化表述,并補(bǔ)充了技術(shù)細(xì)節(jié)的說(shuō)明,包括模型訓(xùn)練所用的數(shù)據(jù)類(lèi)型及其安全性?!敖?jīng)歷嚴(yán)格的同行評(píng)審過(guò)程,無(wú)疑有助于驗(yàn)證模型的有效性和實(shí)用性,”俄亥俄州立大學(xué)哥倫布分校的AI研究員Huan Sun說(shuō)?!捌渌疽矐?yīng)該這樣做?!?/p>
DeepSeek的主要?jiǎng)?chuàng)新在于,使用了一種被稱(chēng)為“純粹強(qiáng)化學(xué)習(xí)”的自動(dòng)化試錯(cuò)方法來(lái)創(chuàng)建R1。該過(guò)程通過(guò)獎(jiǎng)勵(lì)模型得出正確答案,而非教它遵循人類(lèi)挑選的推理示例。模型正是通過(guò)這種方式學(xué)會(huì)了自身的類(lèi)推理策略,例如如何在不遵循人類(lèi)預(yù)設(shè)策略的情況下驗(yàn)證自己的演算過(guò)程。為提高效率,模型還使用估算值來(lái)為自己的嘗試打分,而不是使用一個(gè)獨(dú)立的算法來(lái)完成這項(xiàng)工作,這項(xiàng)技術(shù)被稱(chēng)為“組相對(duì)策略?xún)?yōu)化”(group relative policy optimization)
到目前為止,2025年幾乎所有在LLM中進(jìn)行強(qiáng)化學(xué)習(xí)的研究,都可能或多或少地受到了R1的啟發(fā)
訓(xùn)練技術(shù)
今年一月的媒體報(bào)道曾暗示,OpenAI研究人員認(rèn)為,DeepSeek使用了OpenAI模型的輸出來(lái)訓(xùn)練R1,這種方法可以在使用更少資源的情況下,加速提升模型的能力
在與審稿人的交流中,DeepSeek研究人員聲明,R1并非通過(guò)復(fù)制OpenAI模型生成的推理示例也就是所謂的蒸餾來(lái)學(xué)習(xí)的,和大多數(shù)其他LLM一樣,R1的基礎(chǔ)模型是在網(wǎng)絡(luò)上訓(xùn)練的
Sun表示,這一反駁“與我們?cè)谌魏纬霭嫖镏心芸吹降模暶鳎┮粯泳哂姓f(shuō)服力”。自然審稿人Tunstall補(bǔ)充說(shuō),盡管他不能百分之百確定R1沒(méi)有用OpenAI的示例進(jìn)行訓(xùn)練,但其他實(shí)驗(yàn)室的復(fù)現(xiàn)嘗試表明,DeepSeek的推理配方已經(jīng)足夠好,無(wú)需這樣做。他說(shuō):“我認(rèn)為現(xiàn)在的證據(jù)已經(jīng)相當(dāng)清楚,僅使用純粹強(qiáng)化學(xué)習(xí)就能獲得非常高的性能?!?/p>
Sun表示,對(duì)研究人員來(lái)說(shuō),R1仍然非常有競(jìng)爭(zhēng)力。在一個(gè)名為ScienceAgentBench的挑戰(zhàn)中,要求模型完成分析和可視化數(shù)據(jù)等科學(xué)任務(wù)。Sun和他的同事發(fā)現(xiàn),雖然R1的準(zhǔn)確率不是第一,但在平衡能力與成本方面,它是表現(xiàn)最好的模型之一
自然審稿人Tunstall說(shuō),其他研究人員現(xiàn)在正嘗試應(yīng)用創(chuàng)建R1所使用的方法,來(lái)提升現(xiàn)有LLM的類(lèi)推理能力,并將其擴(kuò)展到數(shù)學(xué)和編程以外的領(lǐng)域。他補(bǔ)充道,從這個(gè)意義上說(shuō),R1“引發(fā)了一場(chǎng)革命”。
參考:
https://www.nature.com/articles/d41586-025-03015-6?utm_source=x&utm_medium=social&utm_campaign=nature&linkId=16828397