伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 荒唐無稽網(wǎng)

    信息源:本文陳述所有內(nèi)容皆有可靠信息來源贅述在文尾當年小品《

    用國產(chǎn)GPU訓(xùn)練的國產(chǎn)大模型來了!能耗暴降97.7%

    智東西作者 陳駿達編輯 心緣

    智東西9月10日報道,9月5日,中國科學(xué)院自動化研究所發(fā)布了類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)的技術(shù)報告。SpikingBrain-7B開源模型僅用主流大模型2%的預(yù)訓(xùn)練數(shù)據(jù),就實現(xiàn)了Qwen2.5-7B 90%的性能,并與Llama-3.1-8B等眾多開源Transformer模型相媲美的性能。

    中科院自動化研究所稱,這是我國首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu),也是我國首次在國產(chǎn)GPU算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。

    SpikingBrain訓(xùn)練和推理的全過程均在國產(chǎn)算力上完成,使用的是由沐曦股份曦云C550 GPU組成的集群。在訓(xùn)練過程中,集群連續(xù)運行2周未中斷,這也證明了構(gòu)建國產(chǎn)自主可控的新型非Transformer大模型架構(gòu)生態(tài)的可行性。

    除了極高的數(shù)據(jù)效率之外,SpikingBrain還在推理效率上實現(xiàn)數(shù)量級提升。在100萬個token上下文場景下,SpikingBrain-7B生成首個token的耗時,比Qwen2.5-7B降低了96.2%。

    這一特性也使得SpikingBrain尤其適合超長序列處理任務(wù),如在法律和醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學(xué)軌跡等。

    在能耗方面,該模型的平均乘加運算能耗相比傳統(tǒng)FP16和INT8運算,分別降低了97.7%和85.2%。

    ▲SpikingBrain-1.0技術(shù)報告

    SpikingBrain-1.0共有7B參數(shù)量和76B參數(shù)量兩個版本。9月3日,7B版本的模型已在GitHub、魔搭等平臺開源。76B版本的模型暫未開源,但提供了體驗鏈接。

    ▲SpikingBrain-1.0體驗界面

    開源地址:

    https://github.com/BICLab/SpikingBrain-7B

    技術(shù)報告:

    https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

    體驗鏈接:

    https://controller-fold-injuries-thick.trycloudflare.com/

    一、Transformer遇上效率瓶頸,從人類大腦找靈感

    為什么需要新型非Transformer架構(gòu)的大模型?打造SpikingBrain的聯(lián)合團隊認為,Transformer架構(gòu)面臨一個固有缺點:訓(xùn)練計算開銷隨序列長度呈平方級增長,推理時的顯存占用也隨序列長度線性增加,帶來海量資源消耗。這限制了模型處理超長序列(100萬個token以上的序列)的能力。

    Transformer架構(gòu)本質(zhì)上依賴“外生復(fù)雜性”,即通過堆疊更多神經(jīng)元和更大規(guī)模計算來提升智能水平。與此對比,人腦以極低的能耗(約為20W)實現(xiàn)了高度復(fù)雜的智能,其神經(jīng)元具有豐富的內(nèi)部動力學(xué)與多樣性。

    這意味著大模型或許存在另一條“內(nèi)生復(fù)雜性”的發(fā)展路徑,通過充分利用生物神經(jīng)網(wǎng)絡(luò)在神經(jīng)元和神經(jīng)環(huán)路上的結(jié)構(gòu)和功能特性,打造下一代模型架構(gòu)。

    低功耗脈沖神經(jīng)網(wǎng)絡(luò)(SNN)方案,被學(xué)界認為是通往更通用AI系統(tǒng)的新一代低功耗類腦神經(jīng)網(wǎng)絡(luò)方案之一。其工作方式與大腦類似,只在需要的時候發(fā)送信號,因此功耗較低。

    研究發(fā)現(xiàn),復(fù)雜的脈沖神經(jīng)元可以用幾個小神經(jīng)元組合來實現(xiàn)同樣的效果,這讓構(gòu)建高效的類腦網(wǎng)絡(luò)成為可能。

    基于上述理論研究,SpikingBrain團隊在模型架構(gòu)中集成了混合高效注意力、MoE模塊和脈沖編碼三大核心組件。

    1、混合高效注意力

    注意力機制是大語言模型的核心計算單元。SpikingBrain整合了不同注意力機制的優(yōu)勢,7B版本模型采用層間混合的線性注意力與SWA,兼顧全局信息檢索和局部依賴。

    而更大規(guī)模的SpikingBrain-76B則使用層內(nèi)并行混合,將線性、SWA與全量softmax注意力結(jié)合,同一層中并行運行多種注意力機制,可高效處理全局信息、局部依賴和長程依賴。

    ▲SpikingBrain整體模型架構(gòu)

    2、混合專家模塊

    SpikingBrain從Qwen2.5-7B-Base(稠密模型)擴展而來。為了在現(xiàn)有稠密模型的基礎(chǔ)上高效擴展,得到稀疏的混合專家模型,SpikingBrain團隊使用了上采樣(Upcycling)技術(shù)。

    這一方法的核心是通過參數(shù)復(fù)制和輸出縮放,使擴展后的模型在初始狀態(tài)下與原模型保持一致,從而避免性能損失。

    3、脈沖神經(jīng)元

    脈沖神經(jīng)元是脈沖神經(jīng)網(wǎng)絡(luò)的基本單元。工程應(yīng)用中常見的LIF(Leaky Integrate-and-Fire)模型,能在一定程度上模擬生物神經(jīng)元的核心特性。但LIF存在神經(jīng)元過度沉默或過度激活問題,從而影響模型精度與能效的平衡。

    為解決這些問題,SpikingBrain團隊提出了自適應(yīng)閾值脈沖神經(jīng)元(Adaptive-threshold Spiking Neurons),可保持神經(jīng)元適度激活,避免過度興奮或靜息。

    二、3個環(huán)節(jié)完成模型轉(zhuǎn)換,全面適配國產(chǎn)GPU集群

    在訓(xùn)練過程中,SpikingBrain團隊將Qwen2.5-7B-Base轉(zhuǎn)換為類腦脈沖大模型,主要包含3個環(huán)節(jié)。

    持續(xù)預(yù)訓(xùn)練和長序列擴展中,模型使用了約150B tokens的數(shù)據(jù),將序列長度從8K逐步擴展至128K。其訓(xùn)練數(shù)據(jù)量僅占從頭訓(xùn)練所需的2%,實現(xiàn)了高效模型轉(zhuǎn)換。

    監(jiān)督微調(diào)環(huán)節(jié)中,通過使用不同領(lǐng)域的數(shù)據(jù)集以及由DeepSeek-R1蒸餾得到的高質(zhì)量推理數(shù)據(jù)集,模型在通用知識、對話和推理等方面的能力逐步提升。

    之后,模型還需要經(jīng)過脈沖化編碼。受生物神經(jīng)系統(tǒng)啟發(fā),SpikingBrain團隊提出將大模型的連續(xù)激活值轉(zhuǎn)換為整數(shù)脈沖序列的策略。

    在推理階段,整數(shù)脈沖計數(shù)會被展開成稀疏脈沖序列,以適配事件驅(qū)動計算。

    SpikingBrain提供三種編碼方式:二值脈沖簡單低能耗;三值脈沖支持類似生物神經(jīng)系統(tǒng)的興奮-抑制調(diào)控,減少時間步和脈沖總數(shù);二進制脈沖可在高計數(shù)場景下顯著降低計算量和能耗。

    ▲三種脈沖方案示意圖

    上述脈沖化方案可在GPU上兼容運行,但GPU無法完全利用脈沖信號“事件驅(qū)動、稀疏異步”的核心優(yōu)勢。要完全釋放本方案的低能耗潛力,需要結(jié)合專用異步硬件(如類腦芯片、脈沖處理器)。

    SpikingBrain仍然選擇了在國產(chǎn)沐曦GPU集群上進行訓(xùn)練,沐曦軟件平臺通過MoE優(yōu)化、計算通信并行、顯存優(yōu)化、算子融合和自動調(diào)優(yōu)等手段實現(xiàn)適配。

    這一適配過程包括Triton適配、CUDA向MACA(沐曦兼容CUDA的軟件棧)框架遷移兩部分。這兩條路徑針對模型內(nèi)部不同算子進行優(yōu)化,結(jié)合形成適用于沐曦GPU的硬件適配方案。

    ▲沐曦平臺上的CUDA和Triton算子適配

    在適配過程中,下游用戶可以在保持原有編程習(xí)慣和接口調(diào)用方式的前提下使用,無需對模型代碼進行大量修改。同時,平臺提供調(diào)試和性能分析工具,便于開發(fā)者觀察模型在硬件上的執(zhí)行情況,并進行必要的微調(diào)和優(yōu)化。

    訓(xùn)練大型語言模型通常超出單個GPU的顯存容量,因此,SpikingBrain團隊結(jié)合數(shù)據(jù)并行、流水線并行、專家并行和序列并行等分布式訓(xùn)練技術(shù),將計算和存儲負載分散到多個GPU上。

    三、恢復(fù)基座模型9成性能,集群連續(xù)運行2周未中斷

    在下游任務(wù)評測中,SpikingBrain-7B在多個基準測試上恢復(fù)了基座模型Qwen2.5-7B約90%的性能,整體水平與Mistral-7B、Llama-3-8B等先進Transformer模型相當,表明高效線性注意力在降低推理復(fù)雜度的同時仍能保持較強的建模能力。

    SpikingBrain-76B混合線性MoE模型幾乎完全恢復(fù)了基座模型性能。

    經(jīng)過三階段SFT對齊訓(xùn)練后,SpikingBrain-76B在通用知識、長序列建模及指令跟隨能力上,與同量級開源對話模型相當,同時保持預(yù)訓(xùn)練獲得的通用能力,未出現(xiàn)過擬合現(xiàn)象,顯示了架構(gòu)在對齊訓(xùn)練中的穩(wěn)定性和可擴展性。

    在長序列推理場景中,SpikingBrain-7B模型在100萬個token長度下TTFT(生成第一個Token所需時間)相比Transformer架構(gòu)加速達到26.5倍,400萬Token長度下加速超過100倍。

    訓(xùn)練性能方面,7B模型在128K序列長度下的訓(xùn)練吞吐量為Qwen2.5-7B的5.36倍,這與推理性能提升基本一致。

    同時在手機CPU端64K、128K、256K長度下,SpikingBrain較Llama3.2的同規(guī)模模型推理速度分別提升4.04倍、7.52倍、15.39倍。

    SpikingBrain-7B在訓(xùn)練過程中的每秒每GPU處理token量達到1558個,模型FLOPs利用率達23.4%,顯示了較高計算效率和資源利用率。集群在連續(xù)兩周運行期間未發(fā)生中斷,體現(xiàn)了國產(chǎn)硬件和軟件生態(tài)系統(tǒng)的可靠性和魯棒性。

    脈沖統(tǒng)計顯示,7B版本模型實現(xiàn)了超過69.15%的稀疏度,長序脈沖占比約1.85%,這為低功耗的類腦大模型運行提供有力支撐。

    結(jié)合異步事件驅(qū)動硬件計算,平均乘加運算能耗相比FP16和INT8,分別實現(xiàn)97.7%和85.2%的能耗降低。這表明,將脈沖驅(qū)動計算與量化相結(jié)合,能夠有效大幅降低能耗開銷,同時做到精度損失可控。

    四、一手體驗76B版本生成效果,在小球彈跳上翻車了

    在官方試用網(wǎng)頁中,智東西對SpikingBrain-76B模型的能力進行了一手體驗。在這一網(wǎng)頁中,模型的最大生成長度被限制為大約8000個token及以下,超過后會直接中止回答。

    ▲SpikingBrain-76B模型的高級參數(shù)設(shè)置頁面

    我們首先讓SpikingBrain-76B介紹一下“何為類腦脈沖大模型”,這主要是為了考察SpikingBrain-76B的理解與表達能力和世界知識儲備。

    由于使用了DeepSeek-R1蒸餾得到的高質(zhì)量推理數(shù)據(jù)集,SpikingBrain-76B的思維鏈風(fēng)格與DeepSeek-R1頗為接近,同樣擁有許多口語化表達。

    SpikingBrain-76B給出的回答結(jié)構(gòu)清晰,內(nèi)容也基本正確。不過,它稱Transformer能效比要優(yōu)于類腦脈沖大模型,這與學(xué)界的主流觀點是相悖的。

    在小球彈跳這一考驗?zāi)P途幊膛c物理規(guī)律理解力的題目上,SpikingBrain-76B有點“翻車了”。它打造的網(wǎng)頁十分原始,小球也未能在六邊形內(nèi)自然彈跳,而是卡在了畫面正中央。

    我們還讓SpikingBrain-76B回答了9.8-9.11這樣的算術(shù)題。在2048個token的最大生成長度設(shè)定下,模型直接提示思考長度超過生成限制。

    當最大生成長度被設(shè)置為約8000個token時,SpikingBrain-76B通過列豎式給出了正確回答。

    中國科學(xué)院自動化研究所在網(wǎng)頁上提示道,模型在訪問高峰時反應(yīng)較慢。在我們的實際體驗過程中,一輪對話往往要20秒左右才能完成。

    結(jié)語:大模型全棧國產(chǎn)自主可控再添進展

    目前,國內(nèi)已有多家企業(yè)和高校探索了非Transformer的模型架構(gòu),除了中國科學(xué)院自動化研究所本次發(fā)布的SpikingBrain之外,上海交通大學(xué)也曾打造一款腦啟發(fā)大語言模型,采用“信號全連接流動”機制模擬人腦的語義編碼和信號傳播方式。

    這類受大腦計算方式啟發(fā)的模型架構(gòu),在計算效率上與Transformer架構(gòu)相比有明顯優(yōu)勢,在與國產(chǎn)算力硬件結(jié)合后,有望走出一條大模型國產(chǎn)自主可控的新路徑。

    訪客,請您發(fā)表評論:

    網(wǎng)站分類
    熱門文章
    友情鏈接
    老头脱裤给老太看的视频| 午夜福利片网站| 亚洲国产另类久久久精品黑人| 亚洲成人av在线高清| 电影 精品一区| 尤物激情在线| 人妻无码中文字幕免费视频蜜桃| 西西人体444www高清大胆| 亚洲制服日韩| 久久17AV| 成人午夜视频一区二区无码| 狼狼人妻久久久久久蜜AV| yazouxingaiwang| 伦人伦xxxx国语对白| 亚洲一区二区制服无码| 国产麻豆精品| 久久无码人妻国产一区二区| 欧美少妇性爱免费| 大肉棒一出一进视频| 欧美亚洲日本国产综合在线美利坚 | 亚洲欧洲精品成人久久曰| 国风产精品秘 入口九色| 亚洲AV激情无码专区| 国产精品午夜性视频| 中国少妇AV| 本日www.女人//www..cn| 国产精品亚洲AV一区三页蜜桃 | 日本韩国亚洲一区二区| 密臀AV在线| 人妻一区二区三| 成熟人妻619视频| 国产一区AV麻豆免费观看| 色诱久久久久综合网ywww| 一起草草草视频在线观看| 高跟肉丝少妇A片在线| 欧美熟妇色XXXx欧美老妇多毛| 精品粉嫩AⅤ一区二区三区四区| 精品国产小视频在线观看| 国产69囗曝吞精在线视频| 欧美黄色中国性爱| 熟妇人妻中文字幕|