新聞2025-09-18 11:01:173546

AI攻克物理奧賽！王夢迪團隊打造Physics Supernova智能體，超過人類金牌選手平均分

在學(xué)科競賽領(lǐng)域，物理因題目復(fù)雜、推理強度高而長期被認為是人工智能（AI）最難攻克的挑戰(zhàn)之一。與語言類任務(wù)相比，物理問題往往涉及圖像識別、單位換算、公式推導(dǎo)和近似計算等多重環(huán)節(jié)，更考驗系統(tǒng)是否具備對現(xiàn)實世界的理解與建模能力。

隨著 AI 日益深入現(xiàn)實世界，并不斷邁向通用人工智能（AGI）乃至超級人工智能（ASI），能否通過物理抽象理解世界、解決問題，正在成為打造高水平智能系統(tǒng)的關(guān)鍵。

在今年舉行的 2025 年國際物理奧林匹克競賽中，一個名為Physics Supernova的 AI 系統(tǒng)交出了令人矚目的成績單：在 3 道理論題測試中，共獲得 23.5 分（滿分 30 分），在所有 406 名參賽選手中排名第 14，且在三道題目中均進入人類前 10%，超過了人類金牌選手的平均得分。

該系統(tǒng)由普林斯頓大學(xué)王夢迪教授團隊及其合作者共同打造，兩位第一作者分別為普林斯頓大學(xué)博士 Jiahao Qiu和清華姚班大四本科生史景喆（在 2021 年國際物理奧林匹克競賽中獲得金牌，全球排名第十）。

論文鏈接：

https://arxiv.org/abs/2509.01659

不同于依賴題庫的傳統(tǒng)方式，Physics Supernova 通過圖像分析、答案復(fù)核等工具模塊，結(jié)合 LLM 的推理能力，實現(xiàn)了從題目理解到建模計算的完整過程。這一結(jié)果顯示，合理集成工具的 Agent 架構(gòu)，能夠顯著提升 AI 在復(fù)雜科學(xué)問題上的推理與解題能力，其表現(xiàn)已逼近人類頂尖選手，為 AI 在科學(xué)探索領(lǐng)域開辟了新的可能性。

業(yè)內(nèi)專家指出，這一成績不僅顯示了AI 在物理解題上的突破性進展，也意味著其在科學(xué)推理領(lǐng)域的應(yīng)用邊界正在被重新定義。

靠工具，AI 也能像物理學(xué)家一樣解題

Physics Supernova 是一個專為解決復(fù)雜物理理論問題設(shè)計的 AI Agent 系統(tǒng)，基于 smolagents 框架，并采用 CodeAgent 架構(gòu)。

與數(shù)學(xué)解題中常見的固定、手工編碼的工作流不同，該系統(tǒng)強調(diào)具備靈活自我規(guī)劃的能力，能夠根據(jù)當(dāng)前的解題進展，動態(tài)調(diào)用不同的工具。

圖｜Physics Supernova 的架構(gòu)與示例推理軌跡

研究團隊為該系統(tǒng)配置了兩個面向物理問題的專用工具：圖像分析器（ImageAnalyzer）與答案復(fù)查器（AnswerReviewer）。

對于物理學(xué)家而言，解讀實驗結(jié)果、從圖像中提取關(guān)鍵數(shù)據(jù)是十分重要能力。在部分物理奧賽題中，這甚至是解題過程的核心環(huán)節(jié)。然而，目前的 LLM 在圖表、圖像與示意圖等視覺數(shù)據(jù)的精確測量方面仍存在不足。ImageAnalyzer 則會將高分辨率圖像傳遞給專用的視覺語言模型，以執(zhí)行精確的數(shù)值讀取與測量任務(wù)。

在實際解題中，物理學(xué)家也會持續(xù)評估自己的理論結(jié)果是否具有物理意義，這包括判斷結(jié)果是否具有符合預(yù)期的物理屬性，或是否違反基本物理原理。AnswerReviewer 被用于在解題過程中識別錯誤類型并定位錯誤表達，從而提升系統(tǒng)的自我校正能力。

為研究各類工具對最終得分的影響，研究團隊測試了多種工具組合。結(jié)果顯示，在大多數(shù)問題中（尤其是非簡單題），移除 AnswerReviewer 會導(dǎo)致性能顯著下降。而將圖像處理任務(wù)交由 ImageAnalyzer 執(zhí)行，則能夠有效提升整體得分。

圖｜ImageAnalyzer 工具對理論題第1題C部分的影響

此外，他們還為 Physics Supernova 接入了一個用于專業(yè)領(lǐng)域知識的問答工具——WolframAlpha ，它是一款能夠提供科學(xué)問題準(zhǔn)確解答的計算型知識引擎，有助于提升系統(tǒng)在應(yīng)對專業(yè)領(lǐng)域知識時的表現(xiàn)。

金牌不是終點，AI 物理系統(tǒng)的下一站

實驗是物理研究的基礎(chǔ)。研究團隊指出，該項研究主要聚焦于 IPhO 2025 的理論題，未涉及基于儀器的實驗題，部分原因在于實驗儀器資源受限。

他們希望，隨著機器人技術(shù)的發(fā)展，未來基于 LLM 的 AI Agent 有望具備執(zhí)行實驗題的能力。相較于實體儀器操作，程序化實驗?zāi)軌蚰M更復(fù)雜、更高級的實驗過程。基于程序的實驗考試，有可能將評估重點從操控儀器的能力轉(zhuǎn)向理解和運用物理的能力。

從長遠來看，基于儀器的實驗評估同樣也不可或缺。這類實驗更貼近現(xiàn)實科研情境，能夠更有效地衡量 AI 系統(tǒng)的機器人能力，并評估其在極端或非預(yù)期條件下的表現(xiàn)。

除此之外，他們使用答案復(fù)查工具來驗證推導(dǎo)過程。該工具完全基于自然語言運行。在數(shù)學(xué)領(lǐng)域，自動化驗證已經(jīng)取得了顯著進展，LLM 可生成可驗證的 Lean 格式證明。然而，從自然語言問題出發(fā)，推導(dǎo)物理公式并進行自動驗證，目前尚無可靠的技術(shù)路徑。這仍是一個有待深入研究的方向。

研究團隊表示，未來值得探索的方向應(yīng)包括：構(gòu)建能驗證公式、物理表達與直觀推理之間抽象轉(zhuǎn)換的方法；建立更加嚴格、可驗證的物理計算體系；借助具備更廣泛、更深入物理知識的工具，增強答案復(fù)查系統(tǒng)的能力。

總之，研究團隊建議，未來關(guān)于 AI 物理解題系統(tǒng)的工作，應(yīng)繼續(xù)拓展其在程序?qū)嶒灮騼x器實驗方面的能力，同時增強其生成可驗證、可信賴物理解答的能力。

展望未來，這類系統(tǒng)有望進一步發(fā)展，成為能夠嵌入現(xiàn)實世界并執(zhí)行復(fù)雜物理任務(wù)的高級智能體。

整理：小羊

如需轉(zhuǎn)載或投稿，請直接在公眾號內(nèi)留言

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss