【文/網(wǎng) 張菁娟】據(jù)香港英文媒體《南華早報》10日報道,中國團(tuán)隊近日成功研發(fā)并發(fā)布了類腦脈沖大模型,這是一款旨在降低能耗、提升性能且無需依賴英偉達(dá)芯片的人工智能系統(tǒng)。
該模型名為“瞬悉1.0”(SpikingBrain-1.0),是中國科學(xué)院自動化研究所李國齊、徐波團(tuán)隊與沐曦MetaX合作打造的,其核心在于模仿人類大腦僅激活所需神經(jīng)元的運(yùn)作模式。
報道稱,與ChatGPT等主流人工智能工具不同,“瞬悉1.0”會有選擇性地對輸入信息做出響應(yīng),進(jìn)而實現(xiàn)節(jié)能并加快響應(yīng)速度。
中國科學(xué)院自動化研究所稱,“瞬悉1.0”在多個核心性能上實現(xiàn)突破,得益于這種設(shè)計,該模型能依托高效轉(zhuǎn)換訓(xùn)練范式,以約為主流大模型2%的預(yù)訓(xùn)練數(shù)據(jù)量實現(xiàn)與眾多開源Transformer模型在多任務(wù)語言理解(MMLU),中文多任務(wù)語言理解(CMMLU、Ceval),常識推理能力(ARC、HS)任務(wù)上相媲美的性能。在某些情況下,其運(yùn)行速度比傳統(tǒng)模型快出100倍。
這是中國首次提出大規(guī)模類腦脈沖基礎(chǔ)模型架構(gòu)、并首次在國產(chǎn)圖形處理器(GPU)算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。提出的模型解決了脈沖驅(qū)動限制下的大規(guī)模類腦模型性能退化問題,其超長序列處理能力在法律/醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學(xué)軌跡等超長序列任務(wù)建模場景中具有顯著的潛在效率優(yōu)勢。
中國科學(xué)院自動化研究所強(qiáng)調(diào),這次發(fā)布的大模型為新一代人工智能發(fā)展提供了非Transformer架構(gòu)的新技術(shù)路線,并將啟迪更低功耗的下一代神經(jīng)形態(tài)計算理論和芯片設(shè)計。
報道指出,在美國收緊對先進(jìn)人工智能芯片出口管制的背景下,這一模型具有重要的戰(zhàn)略意義。
目前,該研究團(tuán)隊開源了SpikingBrain-1.0-7B模型并開放SpikingBrain-1.0-76B測試網(wǎng)址。
該系統(tǒng)在試用網(wǎng)站上介紹道,其深度融合人腦信息處理機(jī)制與脈沖計算范式,致力于通過高效、節(jié)能、國產(chǎn)化的類腦推理為使用者提供強(qiáng)大而可靠的智能服務(wù)。
網(wǎng)站截圖
據(jù)報道,當(dāng)前最受歡迎的人工智能模型均需巨大計算能力支撐。企業(yè)為訓(xùn)練這些模型,需依賴配備高端芯片的大型數(shù)據(jù)中心,而這類芯片會消耗大量電力與冷卻水。
即便完成訓(xùn)練,這些系統(tǒng)對資源的需求依然很高。處理長輸入或生成復(fù)雜響應(yīng)時,它們會因并行處理每個詞匯而非聚焦關(guān)鍵信息而變慢,同時給內(nèi)存帶來壓力,這不僅推高運(yùn)行成本,也加劇了對環(huán)境的影響。
相比之下,“瞬悉1.0”的研發(fā)團(tuán)隊從真實神經(jīng)元的工作原理中汲取靈感。該系統(tǒng)不會同時處理所有信息,而是有選擇性地做出反應(yīng),以更低能耗完成復(fù)雜任務(wù),與人類大腦的工作方式高度相似。
其核心技術(shù)模仿了大腦僅在受到觸發(fā)時才快速發(fā)送信號脈沖的特性。這種由事件驅(qū)動的方式使系統(tǒng)大部分時間處于“靜默”狀態(tài),有助于保持高效節(jié)能。
研究人員稱,盡管SpikingBrain所用數(shù)據(jù)僅為傳統(tǒng)模型的一小部分,但其性能卻與主流開源替代模型相當(dāng),并且它在處理長序列數(shù)據(jù)方面也表現(xiàn)出色。
他們在論文中寫道:“這一突破性實踐不僅為國產(chǎn)算力平臺上的高效大模型研發(fā)提供了寶貴經(jīng)驗,更對未來大模型的規(guī)模化部署與應(yīng)用開辟了新路徑?!?/p>
本文系網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。