伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 點(diǎn)擊右上角微信好友

    朋友圈

    請(qǐng)使用瀏覽器分享功能進(jìn)行分享

    正在閱讀:中國(guó)大模型首登Nature封面!DeepSeek首次披露:R1訓(xùn)練只花200萬(wàn)
    首頁(yè)>時(shí)政頻道>要聞>正文

    中國(guó)大模型首登Nature封面!DeepSeek首次披露:R1訓(xùn)練只花200萬(wàn)

    來(lái)源:{getone name="zzc/xinwenwang"/}2025-09-18 19:18:40

    henry 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

    Nature封面認(rèn)證!DeepSeek R1成果,又拿下了最新殊榮。

    就在最新的Nature新刊中,DeepSeek一舉成為首家登上《Nature》封面的中國(guó)大模型公司,創(chuàng)始人梁文鋒擔(dān)任通訊作者。

    縱觀全球,之前也只有極少數(shù)如DeepMind者,憑借AlphaGo、AlphaFold有過(guò)類(lèi)似榮譽(yù)。

    Nature版本的R1論文不僅首次披露了R1的訓(xùn)練成本——僅約29.4萬(wàn)美元(折合人民幣約 208 萬(wàn)),還進(jìn)一步補(bǔ)充了包括模型訓(xùn)練所使用的數(shù)據(jù)類(lèi)型及安全性的技術(shù)細(xì)節(jié)。

    評(píng)審該論文的Hugging Face機(jī)器學(xué)習(xí)工程師Lewis Tunstall表示,R1是首個(gè)經(jīng)歷同行評(píng)審的大型語(yǔ)言模型,這是一個(gè)非常值得歡迎的先例。

    而俄亥俄州立大學(xué)人工智能研究員Huan Sun更是盛贊R1 ,稱(chēng)其自發(fā)布以來(lái),幾乎影響了所有在大語(yǔ)言模型中使用強(qiáng)化學(xué)習(xí)的研究。

    截至發(fā)文前,其數(shù)據(jù)如下:

    谷歌學(xué)術(shù)引用:3596次Hugging Face 下載量:1090萬(wàn)次(開(kāi)源模型下載量第一)GitHub Star:91.1K

    不過(guò)也是因?yàn)镈eepSeek,中國(guó)AI公司的下一篇工作,恐怕已經(jīng)不再滿(mǎn)足于 CVPR、ICLR、ICML這些AI頂會(huì)了,

    是不是得對(duì)齊Nature、Science的封面了?

    澄清訓(xùn)練細(xì)節(jié)

    在這次的Nature版本中,DeepSeek在其最新的補(bǔ)充材料中對(duì)訓(xùn)練成本、數(shù)據(jù)及安全性進(jìn)行了進(jìn)一步的澄清。

    在訓(xùn)練花費(fèi)方面, R1-Zero和R1都使用了512張H800GPU,分別訓(xùn)練了198個(gè)小時(shí)和80個(gè)小時(shí),以H800每GPU小時(shí)2美元的租賃價(jià)格換算的話,R1的總訓(xùn)練成本為29.4萬(wàn)美元。

    要知道,R1可是實(shí)打?qū)嵉?60B參數(shù)的大模型。

    相比之下,它不到30萬(wàn)美元的訓(xùn)練成本,直接讓那些動(dòng)輒燒掉上千萬(wàn)美元的同行們“抬不起頭”。

    也難怪它在年初發(fā)布時(shí),會(huì)在美股掀起一場(chǎng)海嘯,讓那些關(guān)于“巨額投入才能打造頂級(jí)AI模型”的傳言不再那么漂亮。

    (奧特曼:干脆報(bào)我身份證號(hào)得了)

    此外,在數(shù)據(jù)來(lái)源方面,DeepSeek也是一舉打破了拿彼模型之輸出當(dāng)R1之輸入的傳聞。

    根據(jù)補(bǔ)充材料,DeepSeek-R1的數(shù)據(jù)集包含數(shù)學(xué)、編程、stem、邏輯、通用等5個(gè)類(lèi)型的數(shù)據(jù)。

    具體來(lái)說(shuō),數(shù)學(xué)數(shù)據(jù)集包含2.6萬(wàn)道定量推理題,包括數(shù)學(xué)考試題和競(jìng)賽題;

    代碼數(shù)據(jù)集包含1.7萬(wàn)道算法競(jìng)賽題和8千道代碼修復(fù)問(wèn)題;

    STEM數(shù)據(jù)集包含2.2萬(wàn)道選擇題,涵蓋物理、化學(xué)和生物等學(xué)科;

    邏輯數(shù)據(jù)集包含真實(shí)問(wèn)題和合成問(wèn)題等共1.5萬(wàn)道題;

    通用數(shù)據(jù)集包含6.6萬(wàn)道題,用于評(píng)估模型的有用性,涵蓋創(chuàng)意寫(xiě)作、文本編輯、事實(shí)問(wèn)答、角色扮演以及評(píng)估無(wú)害性等多種類(lèi)別。

    在安全性方面,雖然開(kāi)源共享有助于技術(shù)在社區(qū)中的傳播,但同時(shí)也可能帶來(lái)被濫用的潛在風(fēng)險(xiǎn)。因此DeepSeek又一進(jìn)步發(fā)布了詳細(xì)的安全評(píng)估,涵蓋以下幾個(gè)方面;

    DeepSeek-R官方服務(wù)的風(fēng)險(xiǎn)控制系統(tǒng)在六個(gè)公開(kāi)安全基準(zhǔn)上與其他最先進(jìn)模型的對(duì)比評(píng)估基于內(nèi)部安全測(cè)試集的分類(lèi)學(xué)研究R1模型的多語(yǔ)言安全性評(píng)估模型對(duì)越獄攻擊的魯棒性評(píng)估。

    評(píng)估表明,DeepSeek-R1 模型的固有安全水平總體處于中等水平,與 GPT-4o相當(dāng),通過(guò)結(jié)合風(fēng)險(xiǎn)控制系統(tǒng)可進(jìn)一步提高模型的安全水平。

    接下來(lái),我們來(lái)一起回顧一下這篇經(jīng)典論文

    將強(qiáng)化學(xué)習(xí)應(yīng)用于大語(yǔ)言模型的里程碑

    總的來(lái)說(shuō),DeepSeek-R1(zero)旨在解決大型語(yǔ)言模型在處理復(fù)雜問(wèn)題和對(duì)人工數(shù)據(jù)的依賴(lài),提出了一種純強(qiáng)化學(xué)習(xí)(RL)框架來(lái)提升大語(yǔ)言模型的推理能力。

    這一方法不依賴(lài)人工標(biāo)注的推理軌跡,而是通過(guò)自我演化發(fā)展推理能力,核心在于獎(jiǎng)勵(lì)信號(hào)僅基于最終答案的正確性,而不對(duì)推理過(guò)程本身施加限制。

    具體來(lái)說(shuō),他們使用DeepSeek-V3-Base作為基礎(chǔ)模型,并采用GRPO(Group Relative Policy Optimization)作為強(qiáng)化學(xué)習(xí)框架來(lái)提高模型在推理任務(wù)上的表現(xiàn)。

    經(jīng)過(guò)數(shù)千步強(qiáng)化學(xué)習(xí)訓(xùn)練后,DeepSeek-R1-Zero 在推理基準(zhǔn)測(cè)試上表現(xiàn)出卓越性能。

    例如,在AIME 2024上,pass@1分?jǐn)?shù)從15.6%提升至71.0%,通過(guò)多數(shù)表決進(jìn)一步提高至86.7%,與o1的表現(xiàn)相當(dāng)。

    更進(jìn)一步,為了解決DeepSeek-R1-Zero 在可讀性和語(yǔ)言混合上的問(wèn)題,研究又引入DeepSeek-R1,采用少量冷啟動(dòng)數(shù)據(jù)和拒絕采樣、強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)相結(jié)合的多階段訓(xùn)練框架。

    具體而言,團(tuán)隊(duì)首先收集數(shù)千條冷啟動(dòng)數(shù)據(jù),對(duì) DeepSeek-V3-Base 模型進(jìn)行微調(diào)。隨后,模型進(jìn)行了類(lèi)似 DeepSeek-R1-Zero 的面向推理的強(qiáng)化學(xué)習(xí)訓(xùn)練。

    在強(qiáng)化學(xué)習(xí)接近收斂時(shí),團(tuán)隊(duì)通過(guò)在強(qiáng)化學(xué)習(xí)檢查點(diǎn)上進(jìn)行拒絕采樣,結(jié)合來(lái)自DeepSeek-V3在寫(xiě)作、事實(shí)問(wèn)答、自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù),生成新的SFT數(shù)據(jù),并重新訓(xùn)練DeepSeek-V3-Base模型。

    經(jīng)過(guò)新數(shù)據(jù)微調(diào)后,模型還經(jīng)歷了覆蓋各種提示場(chǎng)景的額外的強(qiáng)化學(xué)習(xí)過(guò)程,DeepSeek-R1就由此而來(lái)。

    實(shí)驗(yàn)表明,DeepSeek-R1與當(dāng)時(shí)的頂尖模型OpenAI-o1-1217不相上下。

    此外,將大模型涌現(xiàn)出的推理模式用于指導(dǎo)并提升小模型的推理能力也成為了一種經(jīng)典方法。

    論文中使用Qwen2.5-32B作為基礎(chǔ)模型,結(jié)果顯示,從DeepSeek-R1蒸餾出的性能,優(yōu)于直接在該基礎(chǔ)模型上應(yīng)用強(qiáng)化學(xué)習(xí)。

    當(dāng)然,在開(kāi)拓性論文的基礎(chǔ)上,更讓人津津樂(lè)道、也贏得Nature盛贊的,是DeepSeek的透明性與開(kāi)源精神:

    DeepSeek已在HuggingFace上公開(kāi)了DeepSeek-R1和DeepSeek-R1-Zero的模型權(quán)重,同時(shí)將基于Qwen2.5 和 Llama3 系列的蒸餾模型一并開(kāi)源,供社區(qū)自由使用。

    回想年初DeepSeek在海外爆火時(shí),梁文鋒一句“中國(guó)AI不可能永遠(yuǎn)跟隨”的豪言壯志令人振奮。

    如今,DeepSeek影響力獲得Nature封面認(rèn)可,如果AI研究機(jī)構(gòu)有S級(jí)認(rèn)可,那DeepSeek毫無(wú)疑問(wèn)已經(jīng)拿到了S級(jí)認(rèn)證。

    下一個(gè),阿里通義、字節(jié)Seed、騰訊混元、百度文心、華為、智譜、Kimi、階躍……

    Who?

    [1]https://www.nature.com/articles/d41586-025-03015-6[2]https://www.nature.com/articles/s41586-025-09422-z#Sec4

    [責(zé)編:{getone name="zzc/mingzi"/}]
    閱讀剩余全文(

    AV天堂少妇| 欧美色视频日本片高清在线观看| 久久精品国产亚洲AV麻豆仙踪林 | 性丰满白嫩白嫩的HD124| 天天国产福利主播| 福利乱码卡一卡二卡新区| 午夜男女日比线上免费看 | 免费又爽又黄禁片视频1000| 国产综合色产在线精品| 山东熟女啪啪哦哦叫| 国产午夜福利在线机视频| 亚洲AV中国| 乱人妻人伦中文字幕| 日本AⅤ精品一区二区三区日添B| 婷婷亚洲基地| 国产色视频一区二区三区| 日本少妇高潮| 成年女人免费碰碰视频| 亚洲AV秘 片一区二区三原神| 国产精品无码成人午夜电影| 激情无码被操日韩AV蜜桃| 精品人无码一区二区三区| 国产综合操逼| 中文字幕无码日韩欧毛| 亚洲无码国产精品| 日韩熟女熟妇久久精品综合| 亚洲xxxx国产| 亚洲综合色区中文字幕| 无码丰满少妇一区二区三区蝴蝶| 五月丁香六月婷婷社区| 亚洲欧美日韩国产精品一区二区 | 99久久久无码国产精品试看蜜龙| 精品国产一区二区三区AV新片 | 久久4444| 亚洲五月六月丁香缴情久久| 人日人干人人干| 狠狠色狠狠色综合日日五| qimiyengshi777| 成人无码区免费视频网站| 久久搡人人玩人妻| 亚洲AV无码一区二区三区七次郎|