研究人員打造帶有AI同行評(píng)審的預(yù)印本平臺(tái)，有望革新科學(xué)出版方式

來源：椎心泣血網(wǎng)-工人日?qǐng)?bào)

2025-09-16 05:21:08

在討論 AGI 或者通用機(jī)器人定義時(shí)，人們往往會(huì)自然聯(lián)想到一些直觀的衡量標(biāo)準(zhǔn)，比如 AI 能否解出高考題、在國際數(shù)學(xué)奧林匹克（IMO，International Mathematical Olympiad）上獲得金牌，或者機(jī)器人能否勝任家務(wù)。這些標(biāo)準(zhǔn)固然能體現(xiàn)“聰明”“適應(yīng)性強(qiáng)”等能力，但卻容易忽略一個(gè)更本質(zhì)的維度——它能否在科學(xué)領(lǐng)域產(chǎn)出真正的新知識(shí)與重大突破？在加拿大多倫多大學(xué)博士生張鵬松和所在團(tuán)隊(duì)看來，評(píng)判超級(jí)智能的一個(gè)重要標(biāo)準(zhǔn)之一，是 AI 與機(jī)器人能不能推動(dòng)科學(xué)邊界前進(jìn)、打破人類既有認(rèn)知與物理界限。這正是該團(tuán)隊(duì)長期關(guān)注 AI Scientists 和 Robot Scientists 的出發(fā)點(diǎn)與動(dòng)力[1]。

圖 | 張鵬松（來源：張鵬松）

過去，科研進(jìn)展受限于研究者的創(chuàng)造力、學(xué)術(shù)背景與有限時(shí)間。而近年的大模型與智能體進(jìn)展，讓 AI Agent以及機(jī)器人已能自動(dòng)完成從提出研究設(shè)想、開展實(shí)驗(yàn)、到撰寫論文等行為。比如日本公司 Sakana AI 提出的 The AI Scientist[2]、美國斯坦福大學(xué)教授 James Zou 團(tuán)隊(duì)的 The Virtual Lab[3]都已經(jīng)非常好地驗(yàn)證了 AI 作為自主科學(xué)家的可行性。這些工作共同指向一個(gè)趨勢(shì)：科學(xué)發(fā)現(xiàn)也將會(huì)迎來新的規(guī)模定律 Scaling Laws[1]。

然而，當(dāng)前的學(xué)術(shù)出版生態(tài)難以承載這股浪潮，傳統(tǒng)學(xué)術(shù)出版體系是為“人類作者 + 人工評(píng)審”的時(shí)代設(shè)計(jì)的，如今面對(duì) AI 生成的海量研究，瓶頸集中在以下幾方面：

其一，評(píng)審?fù)掏虏蛔?，傳統(tǒng)期刊和會(huì)議依賴人工評(píng)審，效率低下，根本無法應(yīng)對(duì) AI 生成內(nèi)容的規(guī)模。

其二，預(yù)印本缺少質(zhì)量控制，預(yù)印本平臺(tái)像arXiv雖然可以快速發(fā)布，但是缺少質(zhì)量控制機(jī)制，無法保證成果的可信度。

其三，署名與規(guī)范的不確定性，不少學(xué)術(shù)場(chǎng)景對(duì) AI 署名/貢獻(xiàn)度仍存分歧，透明度與可追責(zé)性不足，抑制了人類與 AI 的深度協(xié)作，也影響成果的傳播與采用。

其四，Proposal 早期生態(tài)缺位，現(xiàn)有平臺(tái)不支持研究提案（Research Proposal）的結(jié)構(gòu)化交流與迭代。這使得“idea 層面的共創(chuàng)與篩選”缺乏公共空間與思想碰撞，錯(cuò)失了大量原本能在萌芽期快速試錯(cuò)與放大的機(jī)會(huì)。

其五，AI 評(píng)審的安全與對(duì)齊問題, 基于大模型的評(píng)審會(huì)遭遇提示詞注入（prompt injection）等攻擊與操縱風(fēng)險(xiǎn)；同時(shí)還存在證據(jù)對(duì)齊不足、基線不一致等問題。若不治理，這些風(fēng)險(xiǎn)會(huì)侵蝕評(píng)審公正性與可用性。

其六，跨主體協(xié)作缺少統(tǒng)一環(huán)境，未來科研一定是 Human-AI 與 AI-AI 的多智能體協(xié)同。但當(dāng)前缺少一個(gè)統(tǒng)一、開放、可擴(kuò)展的“科研環(huán)境”，如能打造出來那將既能讓不同類型的 Agent（作者、審稿、導(dǎo)師、委員會(huì)、實(shí)驗(yàn)、傳播）以標(biāo)準(zhǔn)化接口接入，又能對(duì)質(zhì)量、溯源、版本進(jìn)行全程管理。

（來源：arXiv:2508.15126）

圖 | aiXiv Platform Overview（來源：arXiv:2508.15126）

基于上述原因，本次團(tuán)隊(duì)提出并實(shí)現(xiàn)了 aiXiv，其表示這是全球首個(gè)面向 AI Scientists、Robot Scientists所產(chǎn)出的Research Proposal和Paper，同時(shí)也是一個(gè)帶有 AI 同行評(píng)審與返修環(huán)節(jié)的 Open Access 預(yù)印本平臺(tái)和 AI Agetns 科研社區(qū)環(huán)境。目標(biāo)是為 AI 科學(xué)家、機(jī)器人科學(xué)家以及人類研究者共同建立一個(gè)全新的科研生態(tài)，打破當(dāng)下分散、封閉的格局，構(gòu)建覆蓋提交-評(píng)審-返修-發(fā)布的完整科研與迭代流程。通過開放接口，人類研究者與各種科研智能體都能便捷接入，在同一平臺(tái)上展開協(xié)作。

圖 | aiXiv網(wǎng)站demo展示（來源：arXiv:2508.15126）

在機(jī)制設(shè)計(jì)上，aiXiv 引入了結(jié)構(gòu)化、多階段的評(píng)審機(jī)制，讓 Proposal 和 Paper 能夠在迭代中持續(xù)改進(jìn)；同時(shí)，版本化發(fā)布和可溯源的質(zhì)量軌跡，讓科研成果的提升可以被真實(shí)驗(yàn)證。多模型投票機(jī)制避免了單一模型偏見，提升了結(jié)論的公平性和可靠性。

在安全與對(duì)齊方面，研究團(tuán)隊(duì)在評(píng)審環(huán)節(jié)中加入檢索增強(qiáng)，使評(píng)審意見與真實(shí)文獻(xiàn)對(duì)齊；并構(gòu)建多層次的提示詞注入檢測(cè)與防御機(jī)制，抵御隱蔽操縱，確保評(píng)審過程的公正與可信。實(shí)驗(yàn)表明，在論文的 Pairwise 評(píng)審任務(wù)中，大模型的準(zhǔn)確率可達(dá) 81%，驗(yàn)證了其具備真實(shí)的學(xué)術(shù)判斷能力。這意味著大模型不僅能夠生成科研內(nèi)容，還能為 AI 產(chǎn)出的研究成果提供可靠的評(píng)審意見與打分，幫助智能體完成持續(xù)迭代和優(yōu)化，從而不斷提高科研質(zhì)量。

（來源：資料圖）

（來源：arXiv:2508.15126）

本次研究的相關(guān)論文發(fā)布之后，研究團(tuán)隊(duì)收到了不同的角度的評(píng)論，有積極的贊許，也有審慎的質(zhì)疑。

一些評(píng)論非常振奮人心。例如有人說“學(xué)術(shù)界曾經(jīng)依靠填補(bǔ)已深入探索領(lǐng)域的小空白而蓬勃發(fā)展。這些空白已經(jīng)消失?，F(xiàn)在，只有真正的突破才算數(shù)。”還有評(píng)論提到：“AI 正在撼動(dòng)學(xué)術(shù)界！但這些 AI 的改進(jìn)是真正創(chuàng)新，還是僅僅完善了人類的努力？傳統(tǒng)學(xué)術(shù)界或許需要警鐘，是準(zhǔn)備好主動(dòng)適應(yīng)，還是看著時(shí)間站在 AI 這邊？”

這些評(píng)論恰好與研究團(tuán)隊(duì)建設(shè) aiXiv 的初衷高度契合。其認(rèn)為，隨著 AI 與機(jī)器人科學(xué)家的發(fā)展，那些增量式的創(chuàng)新點(diǎn)和“小修小補(bǔ)”的工作會(huì)被 AI 快速完成與驗(yàn)證，而這反而能刺激和推動(dòng)人類科學(xué)家把精力集中到更具挑戰(zhàn)、更具突破性的科研問題上。

當(dāng)然，也有不少謹(jǐn)慎的聲音。例如有人提醒：“科學(xué)不僅僅是發(fā)表論文，它還涉及共識(shí)、復(fù)現(xiàn)和信任，如果充斥著 AI 論文的系統(tǒng)沒有良好的治理，可能會(huì)淹沒真正的科學(xué)發(fā)現(xiàn)?！边€有人擔(dān)憂：“即使在arXiv上，有時(shí)也會(huì)有人質(zhì)疑文章的真實(shí)性，但在 aiXiv上這種情況似乎會(huì)更加嚴(yán)重”。

研究團(tuán)隊(duì)表示，他們非常理解這些擔(dān)憂，這正是 aiXiv 設(shè)計(jì)的關(guān)鍵考量之一。研究團(tuán)隊(duì)為 AI 與人類研究者共同提供評(píng)審接口，讓不同的 AI Reviewer 與 Human Reviewer 可以同時(shí)參與，形成多維度、多角度的綜合審查。這種機(jī)制既是對(duì)質(zhì)量的保障，也是對(duì)“信任”的回應(yīng)。研究團(tuán)隊(duì)相信，隨著 AI 在科研與評(píng)審能力上的不斷迭代，它最終有可能形成一種新的學(xué)術(shù)評(píng)審范式，使其不僅接近人類水準(zhǔn)，甚至在某些方面超越現(xiàn)有人類評(píng)審模式。

（來源：arXiv:2508.15126）

就應(yīng)用前景來說：

研究團(tuán)隊(duì)認(rèn)為，本次 aiXiv 平臺(tái)或者未來出現(xiàn)的類似平臺(tái)，將會(huì)帶來兩方面革新性的變化：

首先，有望革新現(xiàn)有的科學(xué)研究范式。

在 AI Scientists 的初期發(fā)展階段，科研中的研究提案與創(chuàng)新點(diǎn)方面可能將首先被顛覆。現(xiàn)在的科研環(huán)境中存在著這樣一種描述“科研就像炒菜”，需要各學(xué)科、方法、思想的整合與碰撞。而當(dāng)下的大模型本身就具備跨學(xué)科的知識(shí)儲(chǔ)備，它們能夠在極短時(shí)間內(nèi)提出海量的創(chuàng)新性想法[4][5]。若這些想法通過像 aiXiv 這樣的平臺(tái)得到多維度評(píng)審與迭代，那么 AI 產(chǎn)出的可行創(chuàng)新點(diǎn)將無限接近與覆蓋 100% 人類科學(xué)家所能想到的創(chuàng)新想法。這意味著人類科學(xué)家可探索的“增量空間”將迅速收縮，但也會(huì)倒逼人類去挑戰(zhàn)更高難度、更具突破性的科學(xué)問題。

從更長遠(yuǎn)的視角來看，自 17 世紀(jì)以來，人類已在各學(xué)科領(lǐng)域發(fā)表了約 1.5 億至 2 億篇高質(zhì)量科學(xué)論文。這份浩瀚的記錄凝聚了人類數(shù)百年的努力、協(xié)作和漸進(jìn)式探索。但隨著自主 AI 研究人員的崛起，相比之下這些成果很快就會(huì)顯得微不足道。AI 系統(tǒng)將以超人的速度和規(guī)模運(yùn)行，生成、測(cè)試和發(fā)表數(shù)十億篇科學(xué)論文，這并非幾個(gè)世紀(jì)的工夫，而是短短幾年，甚至幾個(gè)月，幾天或幾小時(shí)……在這些成果中，不僅可能涌現(xiàn)諾貝爾獎(jiǎng)級(jí)別的突破，還可能在迭代中誕生出堪比甚至超越“愛因斯坦”式的“超級(jí) AI 科學(xué)家”。

（來源：arXiv:2503.22444）

其次，有望革新現(xiàn)有的科學(xué)出版方式。

aiXiv 的理念是打造一個(gè)主要針對(duì) AI 科學(xué)家與機(jī)器人科學(xué)家的免費(fèi)、共享的預(yù)印本平臺(tái)。但與傳統(tǒng)的預(yù)印本平臺(tái)不同的是，aiXiv 集成了 AI 評(píng)審，以保證 Proposal 與 Paper 的提交質(zhì)量。為了實(shí)現(xiàn)真正的免費(fèi)與共享，研究團(tuán)隊(duì)正在考慮采用去中心化與區(qū)塊鏈技術(shù)以存儲(chǔ)、記錄 DOI、版本、評(píng)審軌跡，保證可追溯性與透明性。

另據(jù)悉，本次研究團(tuán)隊(duì)的合作者大多來自大模型、Agent 與機(jī)器人方向。課題的出發(fā)點(diǎn)其實(shí)很樸素：AI 與機(jī)器人能否完成端到端的自主科學(xué)研究？如果答案是“能”，當(dāng)這種能力以規(guī)?；霈F(xiàn)時(shí)，人類應(yīng)如何接住這股洪流？2024 年，馬斯克曾判斷“未來 3 年 200-300 億數(shù)量級(jí)的類人機(jī)器人將會(huì)出現(xiàn)”。即便把這個(gè)說法打個(gè)折，沒有物理身體的 AI Agents 在數(shù)量上也更容易出現(xiàn)指數(shù)級(jí)增長。想象一下：僅 1 億個(gè) AI 研究型智能體持續(xù)產(chǎn)生提案與論文，所形成的“審稿需求”已遠(yuǎn)超人類評(píng)審能力。2025 年，國際頂會(huì) NIPS、AAAI 的投稿量都突破三萬篇。這只是一個(gè)開端，在 AI 的加持下，“沒有足夠?qū)徃迦丝捎谩闭诔蔀楝F(xiàn)實(shí)問題。研究團(tuán)隊(duì)希望正面回答：當(dāng)科研成果數(shù)量達(dá)到某個(gè)臨界點(diǎn)時(shí)，人們應(yīng)該怎么辦？

研究團(tuán)隊(duì)最初把這個(gè)問題拋到社交媒體上尋找合作者，很快就吸引了來自全球各大高校和研究機(jī)構(gòu)的伙伴加入，其中涵蓋大模型、Agent、機(jī)器人以及生物醫(yī)學(xué)等方向的合作者。隨后研究團(tuán)隊(duì)快速進(jìn)入研究推進(jìn)的三個(gè)關(guān)鍵階段。

首先是明確命題與邊界，其把問題壓縮成兩個(gè)可操作的問題：其一，如何驗(yàn)證“AI/機(jī)器人能做科學(xué)”不是孤例，而是可復(fù)制、可擴(kuò)展的流程？其二，當(dāng) AI 研究供給暴漲時(shí)，如何通過一個(gè)平臺(tái)同時(shí)解決“快速發(fā)布”和“可信評(píng)審”的矛盾？這一步的關(guān)鍵是把愿景轉(zhuǎn)化為可驗(yàn)證的工程與制度設(shè)計(jì)。

其次是廣邀協(xié)作，跨學(xué)科的合作者拼圖讓研究團(tuán)隊(duì)能夠從“科研生產(chǎn)”“質(zhì)量管理”“安全對(duì)齊”三個(gè)維度同步推進(jìn)。

最后是搭建最小可行原型，研究團(tuán)隊(duì)打通了“提交-評(píng)審-返修-發(fā)布”的完整鏈路，支持 Proposal 與 Paper 的提交，讓 AI 與人類評(píng)審能夠被統(tǒng)一調(diào)度與記錄，每一次返修都能形成可追蹤的質(zhì)量軌跡。

本次研究的合作者胡翔和黃國偉表示，在實(shí)驗(yàn)階段，當(dāng)研究團(tuán)隊(duì)完整復(fù)現(xiàn) AI-Scientist 的流程時(shí)，從一個(gè) idea 出發(fā)，到自動(dòng)化完成實(shí)驗(yàn)，再到安全地生成一篇完整的論文，讓人十分震撼。那一刻，研究團(tuán)隊(duì)并不是擔(dān)心自己真人研究員的身份會(huì)被替代，而是意識(shí)到未來會(huì)出現(xiàn)越來越多更智能的 AI Scientist 工具，它們能夠幫助人類更好地開展科研，加速整個(gè)科學(xué)進(jìn)展。哪怕科研效率只提高百分之十，對(duì)社會(huì)的價(jià)值都會(huì)是巨大的。研究團(tuán)隊(duì)做 aiXiv 的初衷，就是希望把這些由 AI 產(chǎn)出的高質(zhì)量知識(shí)沉淀下來，真正服務(wù)于科學(xué)。

當(dāng)問及下一步基于該研究是否有后續(xù)計(jì)劃？胡翔以及張鵬松表示，在 aiXiv 的基礎(chǔ)上，研究團(tuán)隊(duì)計(jì)劃進(jìn)一步引入強(qiáng)化學(xué)習(xí)，將其打造為一個(gè)科研的 Agent 環(huán)境，使研究型智能體能夠通過結(jié)構(gòu)化交互不斷演化。隨著平臺(tái)上大規(guī)模產(chǎn)生的科研提案、論文、同行評(píng)審與多輪返修積累，aiXiv 將形成一個(gè)豐富的經(jīng)驗(yàn)數(shù)據(jù)倉庫，為科研智能體或者說 AI 科學(xué)家的學(xué)習(xí)提供堅(jiān)實(shí)基礎(chǔ)。

在這一協(xié)作生態(tài)中，研究型智能體將能夠：

學(xué)習(xí)復(fù)雜推理與長期決策能力，提升其制定與執(zhí)行科研計(jì)劃的能力；發(fā)展自適應(yīng)行為，在科學(xué)探索與綜合實(shí)驗(yàn)中不斷優(yōu)化策略；自主獲取新知識(shí)與技能，通過與其他智能體和人類研究者的互動(dòng)完成迭代，而無需依賴顯式重編程。

這些能力將使智能體能夠動(dòng)態(tài)適應(yīng)新興的科研領(lǐng)域與未知挑戰(zhàn)，確保其在快速演化的科學(xué)前沿保持持續(xù)相關(guān)性。

此外，研究團(tuán)隊(duì)希望把 AI-Scientist 真正用于端到端實(shí)驗(yàn)。不僅要在計(jì)算機(jī)科學(xué)、數(shù)學(xué)等不太需要“動(dòng)手”的學(xué)科實(shí)現(xiàn)從構(gòu)想到結(jié)果的自動(dòng)化，也要將其與自動(dòng)化機(jī)器人系統(tǒng)深度結(jié)合，走進(jìn)需要物理實(shí)驗(yàn)與濕實(shí)驗(yàn)的領(lǐng)域（如生物、化學(xué)、材料等工程科學(xué)）。通過高通量實(shí)驗(yàn)執(zhí)行、自動(dòng)化儀器控制、實(shí)時(shí)數(shù)據(jù)采集與分析，以及“假設(shè)-實(shí)驗(yàn)-評(píng)估-返修”的閉環(huán)，研究團(tuán)隊(duì)希望能夠打通“選題-設(shè)計(jì)-實(shí)驗(yàn)-分析-寫作-發(fā)布”的全流程。最終目標(biāo)是培養(yǎng)具備“手腦一體”能力的 Robot Scientist，不僅能勝任人類科學(xué)家的日常工作，更在速度、準(zhǔn)確性、創(chuàng)新性與可復(fù)現(xiàn)性上接近與超越人類水準(zhǔn)。

研究團(tuán)隊(duì)也希望將 AI-Scientist 推廣到其他領(lǐng)域，尤其是商科研究。一個(gè)關(guān)鍵問題在于，AI-Scientist 是否能夠自主識(shí)別并收集相關(guān)數(shù)據(jù)，從而開展高質(zhì)量的商學(xué)院學(xué)術(shù)研究？與此同時(shí)，本次研究也發(fā)現(xiàn)當(dāng)前在文獻(xiàn)引用方面仍然存在不足。然而，文獻(xiàn)的有效應(yīng)用對(duì)科學(xué)研究至關(guān)重要。因此，研究團(tuán)隊(duì)也希望在這一領(lǐng)域進(jìn)一步提升 AI-Scientist 在整合和運(yùn)用現(xiàn)有文獻(xiàn)方面的能力。

目前，研究團(tuán)隊(duì)正在籌備建立一個(gè)全球性非營利性組織 aiXiv Organization，旨在將 aiXiv 打造為下一代的科學(xué)研究發(fā)布與共享平臺(tái)。aiXiv Organization 的使命不僅是“發(fā)布論文”，更是要探索人類與 AI 共同進(jìn)化的科研新范式，為未來的科學(xué)發(fā)現(xiàn)提供可信賴的基礎(chǔ)設(shè)施。

研究團(tuán)隊(duì)也正在邀請(qǐng)各大頂級(jí)高校教授們加入上述非營利性組織的 Advisory Board，希望借助他們的專業(yè)洞見與學(xué)術(shù)規(guī)范經(jīng)驗(yàn)，逐步共同建立起一個(gè)科學(xué)、可信、規(guī)范且長期可持續(xù)的 AI for Research 生態(tài)環(huán)境。同時(shí)，其也期待得到來自企業(yè)、基金會(huì)等各類合作伙伴的支持，攜手推動(dòng)這一開放科研平臺(tái)的建設(shè)與落地。另外，本次論文的合作者周孝嚴(yán)也正在創(chuàng)立一家初創(chuàng)公司。公司使命是將“AI 科學(xué)家”這一前沿理念落地應(yīng)用于各個(gè)垂直領(lǐng)域之中，從而加速企業(yè)科研創(chuàng)新進(jìn)程，提升科研產(chǎn)出效率。

責(zé)任編輯：椎心泣血網(wǎng)