平頂山2025-09-21 11:44:378517

重磅！DeepSeek R1論文經(jīng)過同行評議登上Nature封面，梁文鋒作為通訊作者再次創(chuàng)造歷史

DeepSeek R1 論文《DeepSeek-R1 incentivizes reasoning in LLMsthrough reinforcement learning》登上了nature 封面，梁文鋒是通訊作者，這是首個經(jīng)過同行評議的具有全球影響力的LLM

這篇論文在今年2月份提交，今天終于見刊了

Nature 今天這篇論文更新了今年一月發(fā)布的預(yù)印本，該預(yù)印本描述了DeepSeek如何增強一個標(biāo)準的大語言模型（LLM）來處理推理任務(wù)。其補充材料首次詳細披露了R1的訓(xùn)練成本：僅相當(dāng)于29.4萬美元。R1所基于的基礎(chǔ)LLM花費了約600萬美元，這筆費用是在此基礎(chǔ)上的額外成本，但總金額仍遠低于外界猜測的競爭對手模型數(shù)千萬美元的成本。R1主要使用英偉達的H800芯片進行訓(xùn)練

截至目前，R1是AI社區(qū)平臺Hugging Face上最受歡迎的同類模型，下載量已達1090萬次

嚴格的審查

R1被認為是首個經(jīng)歷同行評審過程的重要LLM?！斑@是一個非常值得歡迎的先例，”《自然》論文的審稿人之一、Hugging Face的機器學(xué)習(xí)工程師Lewis Tunstall說?！叭绻覀儧]有這種將大部分過程公之于眾的規(guī)范，就很難評估這些系統(tǒng)是否會帶來風(fēng)險?！?/p>

為回應(yīng)同行評審的意見，DeepSeek團隊減少了描述中的擬人化表述，并補充了技術(shù)細節(jié)的說明，包括模型訓(xùn)練所用的數(shù)據(jù)類型及其安全性?！敖?jīng)歷嚴格的同行評審過程，無疑有助于驗證模型的有效性和實用性，”俄亥俄州立大學(xué)哥倫布分校的AI研究員Huan Sun說?！捌渌疽矐?yīng)該這樣做?！?/p>

DeepSeek的主要創(chuàng)新在于，使用了一種被稱為“純粹強化學(xué)習(xí)”的自動化試錯方法來創(chuàng)建R1。該過程通過獎勵模型得出正確答案，而非教它遵循人類挑選的推理示例。模型正是通過這種方式學(xué)會了自身的類推理策略，例如如何在不遵循人類預(yù)設(shè)策略的情況下驗證自己的演算過程。為提高效率，模型還使用估算值來為自己的嘗試打分，而不是使用一個獨立的算法來完成這項工作，這項技術(shù)被稱為“組相對策略優(yōu)化”（group relative policy optimization）

到目前為止，2025年幾乎所有在LLM中進行強化學(xué)習(xí)的研究，都可能或多或少地受到了R1的啟發(fā)

訓(xùn)練技術(shù)

今年一月的媒體報道曾暗示，OpenAI研究人員認為，DeepSeek使用了OpenAI模型的輸出來訓(xùn)練R1，這種方法可以在使用更少資源的情況下，加速提升模型的能力

在與審稿人的交流中，DeepSeek研究人員聲明，R1并非通過復(fù)制OpenAI模型生成的推理示例也就是所謂的蒸餾來學(xué)習(xí)的，和大多數(shù)其他LLM一樣，R1的基礎(chǔ)模型是在網(wǎng)絡(luò)上訓(xùn)練的

Sun表示，這一反駁“與我們在任何出版物中能看到的（聲明）一樣具有說服力”。自然審稿人Tunstall補充說，盡管他不能百分之百確定R1沒有用OpenAI的示例進行訓(xùn)練，但其他實驗室的復(fù)現(xiàn)嘗試表明，DeepSeek的推理配方已經(jīng)足夠好，無需這樣做。他說：“我認為現(xiàn)在的證據(jù)已經(jīng)相當(dāng)清楚，僅使用純粹強化學(xué)習(xí)就能獲得非常高的性能?！?/p>

Sun表示，對研究人員來說，R1仍然非常有競爭力。在一個名為ScienceAgentBench的挑戰(zhàn)中，要求模型完成分析和可視化數(shù)據(jù)等科學(xué)任務(wù)。Sun和他的同事發(fā)現(xiàn)，雖然R1的準確率不是第一，但在平衡能力與成本方面，它是表現(xiàn)最好的模型之一

自然審稿人Tunstall說，其他研究人員現(xiàn)在正嘗試應(yīng)用創(chuàng)建R1所使用的方法，來提升現(xiàn)有LLM的類推理能力，并將其擴展到數(shù)學(xué)和編程以外的領(lǐng)域。他補充道，從這個意義上說，R1“引發(fā)了一場革命”。

參考：

https://www.nature.com/articles/d41586-025-03015-6?utm_source=x&utm_medium=social&utm_campaign=nature&linkId=16828397

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss