發(fā)布時間:2025-09-14 來源:花辰月夕網(wǎng)作者:劉甜德瓜華
機器之心報道
編輯:冷貓
大模型在科研領(lǐng)域越來越高效了。
昨天,谷歌發(fā)表了一篇重磅文章,提出了一個能夠幫助科研人員編寫「專家級」科研軟件的 AI 系統(tǒng)。
該系統(tǒng)融合了大語言模型和傳統(tǒng)樹搜索,能夠自動編寫和優(yōu)化科研任務(wù)中所需的軟件程序,能夠獲取多種渠道的現(xiàn)有知識,整合并且重組這些知識來構(gòu)建一個新的研究思路。
谷歌生成,該系統(tǒng)不僅穩(wěn)定達到專家水平,還常常超越人類。在基因組學(xué)、公共健康、數(shù)值分析等多個領(lǐng)域,這套系統(tǒng)的表現(xiàn)甚至超過了頂尖研究團隊和國家級集成系統(tǒng)。
論文標(biāo)題:An AI system to help scientists write expert-level empirical software論文鏈接:https://www.alphaxiv.org/abs/2509.06503v1
如此這般,科研人員在各個領(lǐng)域的研究中都能夠使用這一 AI 系統(tǒng)來構(gòu)建全新的研究思路和實證程序,能夠更高效地進行科學(xué)研究。
AI 在科研領(lǐng)域的應(yīng)用一直以自動化的特性為主,能夠輔助科研人員進行可行性驗證,完成一些重復(fù)的高強度工作,減少科研人員在重復(fù)驗證、調(diào)試程序等工作上浪費的時間,更能夠激發(fā)科研人員的創(chuàng)新思維。
谷歌的這個系統(tǒng)能夠?qū)崿F(xiàn)研究思路的整合與重組,在科研任務(wù)中能夠創(chuàng)建一些新的策略,構(gòu)建更高效的模型,讓 AI 系統(tǒng)介入科研領(lǐng)域的創(chuàng)新過程,從一次性代碼生成的工具,轉(zhuǎn)變?yōu)橛闪炕繕?biāo)指導(dǎo)的迭代、搜索驅(qū)動的軟件演進。
不過也有網(wǎng)友表達了 AI 深入科研領(lǐng)域的擔(dān)憂:
谷歌這一次的 AI 系統(tǒng)仍然具有很大的局限性,系統(tǒng)的構(gòu)建目標(biāo)是「可評分的科學(xué)任務(wù)」—— 即那些可以通過準確率、誤差率或基準測試排名等指標(biāo)來量化軟件性能的計算問題,雖覆蓋了廣泛的科研領(lǐng)域,但未提及那些不可量化評估的任務(wù)表現(xiàn)。
值得一提的是,前谷歌搜索成員Deedy Das分享了這個工作,而他最感興趣的是論文附錄中的 Prompt。
論文中使用的指令:「請創(chuàng)建一種算法,結(jié)合兩種策略的優(yōu)點,形成一種真正出色的混合策略,并且其得分要高于任一單獨策略?!拐f明優(yōu)秀的結(jié)果并不總需要非常復(fù)雜的 Prompt 指令。
論文詳細內(nèi)容如下:
本研究引入了一個 AI 系統(tǒng),該系統(tǒng)能自動為科學(xué)計算任務(wù)創(chuàng)建專家級的實證軟件。該系統(tǒng)結(jié)合了大型語言模型和樹搜索算法,以迭代地生成、評估和完善科學(xué)軟件解決方案。其核心創(chuàng)新在于,LLM 不僅用于一次性代碼生成,而是作為系統(tǒng)搜索過程中一個智能的「變異」引擎,能夠整合并重組科學(xué)文獻中的研究思路。
圖 1: (a) 系統(tǒng)架構(gòu):展示了可評分問題與研究思路如何輸入到大語言模型(LLM),由其生成代碼,并在沙盒環(huán)境中進行評估,結(jié)果以樹搜索結(jié)構(gòu)進行組織。(b) 性能對比:不同方法的成功率比較,結(jié)果顯示結(jié)合專家指導(dǎo)的樹搜索(TS)取得了最高成功率。(c) 研究思路來源:包括專家知識、學(xué)術(shù)論文,以及 AI 生成的重組方案。
問題與方法
本系統(tǒng)的目標(biāo)是「可評分的科學(xué)任務(wù)」—— 即那些可以通過準確率、誤差率或基準測試排名等指標(biāo)來量化軟件性能的計算問題。這類任務(wù)涵蓋了從基因組學(xué)到流行病學(xué)再到圖像分析等廣泛的科學(xué)計算應(yīng)用。
該方法論圍繞三個核心組件協(xié)同工作:
1. 基于 LLM 的代碼變異
不同于從零生成代碼,LLM 會持續(xù)重寫并優(yōu)化已有的候選代碼。系統(tǒng)利用 LLM 對編程邏輯和領(lǐng)域上下文的理解,結(jié)合研究思路和性能反饋,進行智能化修改和改進。
2. 樹搜索導(dǎo)航
代碼生成過程被嵌入到樹搜索算法中,以系統(tǒng)化方式探索龐大的軟件解空間。搜索過程在「利用」(集中改進已有的優(yōu)質(zhì)解)和「探索」(尋找全新方法)之間取得平衡,使用了一種受 AlphaZero 啟發(fā)的 PUCT 算法變體。
3. 研究思路的融合
該系統(tǒng)的一大特色是能夠通過多種渠道引入外部知識:
直接注入來自科學(xué)論文和教材的研究思路利用如 Gemini Deep Research 等工具生成 LLM 研究見解程序化地重組已有成功方案,形成混合策略
該系統(tǒng)在 Kaggle playground 競賽中開發(fā)與迭代,因其具有快速迭代周期和清晰的人類表現(xiàn)基準,成為理想的測試平臺。
跨科學(xué)領(lǐng)域的主要成果
基因組學(xué):單細胞 RNA 測序
在從單細胞 RNA 測序數(shù)據(jù)中去除技術(shù)批次效應(yīng)同時保留生物學(xué)信號的挑戰(zhàn)性任務(wù)中,該系統(tǒng)發(fā)現(xiàn)了 40 種新方法,其性能優(yōu)于 OpenProblems 排行榜上所有已發(fā)表的方法。性能最佳的方法 BBKNN (TS) 通過將ComBat校正的 PCA 嵌入與批次平衡 K 近鄰相結(jié)合,比現(xiàn)有最佳方法(ComBat)提高了 14%。
圖 2:樹搜索進展圖,顯示了迭代過程中性能的提高,并在突破點處標(biāo)注了關(guān)鍵算法創(chuàng)新。該系統(tǒng)發(fā)現(xiàn)了優(yōu)化批次感知圖構(gòu)建和實現(xiàn) ComBat 基因表達校正的方法。
地理空間分析:衛(wèi)星圖像分割
在使用DLRSD 數(shù)據(jù)集進行衛(wèi)星圖像的密集像素級語義分割時,該系統(tǒng)的前三名解決方案顯著優(yōu)于最近的學(xué)術(shù)論文,平均交并比分數(shù)大于 0.80。這些解決方案基于現(xiàn)有架構(gòu)(UNet++、SegFormer),但優(yōu)化了它們與強大的預(yù)訓(xùn)練編碼器和廣泛數(shù)據(jù)增強策略的集成。
圖 3:衛(wèi)星圖像分割結(jié)果示例,顯示原始圖像(頂行)、真實掩模(中行)和系統(tǒng)預(yù)測(底行)。系統(tǒng)成功分割了包括機場、跑道、飛機和基礎(chǔ)設(shè)施在內(nèi)的各種特征。
神經(jīng)科學(xué):全腦神經(jīng)活動預(yù)測
在斑馬魚大腦中建模超過 70,000 個神經(jīng)元的活動(ZAPBench)時,系統(tǒng)生成的最佳模型在多步預(yù)測方面優(yōu)于所有基線,并且訓(xùn)練速度比競爭視頻模型快幾個數(shù)量級。該系統(tǒng)成功地將生物物理神經(jīng)元模擬器(Jaxley)整合到高性能解決方案中。
時間序列預(yù)測
在涵蓋 28 個不同時間序列數(shù)據(jù)集的 GIFT-Eval 基準測試中,該系統(tǒng)在多個數(shù)據(jù)集上的性能優(yōu)于排行榜。值得注意的是,它從頭開始創(chuàng)建了一個統(tǒng)一的預(yù)測庫,該庫能自適應(yīng)地配置到不同的數(shù)據(jù)集,并將時間序列分解為各個組成部分。
圖 4:系統(tǒng)發(fā)現(xiàn)的成功預(yù)測方法的分布。梯度提升方法(GBM)和集成方法在各種預(yù)測任務(wù)中是最常成功的策略。
數(shù)值分析:復(fù)雜積分
對于評估具有無限限度的振蕩積分(其中 scipy.integrate.quad () 等標(biāo)準算法完全失效)時,演化出的代碼正確評估了 19 個留出積分中的 17 個,誤差在 3% 分數(shù)誤差之內(nèi)。該解決方案實現(xiàn)了復(fù)雜的數(shù)學(xué)啟發(fā)式方法,包括域劃分和歐拉變換以加速級數(shù)。
技術(shù)創(chuàng)新:研究思路與重組
一個關(guān)鍵的創(chuàng)新是研究思路的系統(tǒng)集成及其智能重組。該系統(tǒng)可以分析不同方法的核心原理,并合成創(chuàng)建混合方法的指令。
圖 5:方法重組結(jié)果分析,顯示原始方法與其組合版本之間的性能比較。綠色條表示成功的改進,紅色條表示性能下降,而藍色表示原始方法的性能。
總結(jié)
這項研究表明,AI 不僅能夠?qū)崿F(xiàn)自動化,還能在多個科學(xué)領(lǐng)域系統(tǒng)性地超越人類在科研軟件開發(fā)中的表現(xiàn)。系統(tǒng)在生物信息學(xué)、流行病學(xué)、地理空間分析、神經(jīng)科學(xué)和數(shù)值分析等領(lǐng)域中,持續(xù)取得專家級,甚至超越人類水準的成果,顯示出其廣泛的適用性。
該方法標(biāo)志著科研軟件開發(fā)范式的轉(zhuǎn)變:從「一次性代碼生成」走向「以可量化科學(xué)目標(biāo)為導(dǎo)向」的迭代式、搜索驅(qū)動的軟件進化。通過將開發(fā)周期從「數(shù)周甚至數(shù)月」縮短至「數(shù)小時或數(shù)天」,這一系統(tǒng)有效解決了科研中的關(guān)鍵瓶頸問題,有潛力加速所有以可量化指標(biāo)衡量的計算研究。
系統(tǒng)在大規(guī)模解空間中進行系統(tǒng)化探索,融合多元研究思路,并能大海撈針般的找出高質(zhì)量解決方案。這種能力預(yù)示著它可能從根本上改變科研軟件的開發(fā)方式:
既能讓更多研究者平等獲取先進的分析工具,也能不斷拓展科學(xué)探索在計算能力上的邊界。