新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】OpenAI重磅推出GPT-5-Codex,專為智能體編程設(shè)計(jì),顯著提升代碼重構(gòu)、審查和缺陷發(fā)現(xiàn)的表現(xiàn)。其動(dòng)態(tài)資源分配機(jī)制讓模型在低負(fù)載請(qǐng)求中更高效,在復(fù)雜任務(wù)中更深入。2025編程智能體大戰(zhàn)全面升溫,GPT-5-Codex能否突圍?
剛剛,GPT-5「船新」版本上線!
這次OpenAI直接使用Codex品牌名稱來(lái)作為新模型后綴,GPT-5-Codex!
新模型能力將更加擅長(zhǎng)智能編碼!
即使2025年只剩下三分之一,各家巨頭在「編程智能體」的爭(zhēng)奪依然是白熱化??!
OpenAI官博更是重新定義了「自動(dòng)補(bǔ)全」,升級(jí)為「agent-complete」。
在OpenAI播客第六集中,總裁Greg與Codex負(fù)責(zé)人Thibault Sottiaux聊了很多關(guān)于GPT-5-Codex,以及到2030年軟件開(kāi)發(fā)可能會(huì)是「什么樣子」。
首先來(lái)速通一下此次重大更新。
此次發(fā)布的GPT-5-Codex屬于GPT-5的一個(gè)特殊版本,它專為智能體編程(agentic coding)重新設(shè)計(jì)。
GPT-5-Codex將具備全面的「雙?!固亻L(zhǎng):
即時(shí)協(xié)作:與開(kāi)發(fā)者實(shí)時(shí)配合,快速回答問(wèn)題、修復(fù)小bug。
獨(dú)立執(zhí)行:能長(zhǎng)時(shí)間自主推進(jìn)復(fù)雜任務(wù)(如大規(guī)模重構(gòu)、跨文件調(diào)試)。
簡(jiǎn)單說(shuō)就是,GPT-5-Codex不僅快&而且更加可靠。
GPT-5-Codex的交互響應(yīng)更靈敏,小任務(wù)幾乎即時(shí),大任務(wù)可持續(xù)執(zhí)行數(shù)小時(shí)。
OpenAI內(nèi)部測(cè)試可連續(xù)7小時(shí)完成大規(guī)模重構(gòu)。
GPT-5-Codex三大性能全面提升
首先,在SWE-bench驗(yàn)證和代碼重構(gòu)任務(wù)上,GPT-5-Codex都超過(guò)了目前最先進(jìn)的GPT-5-high。
尤其是在非常適合于真實(shí)世界任務(wù)的代碼重構(gòu)任務(wù)上,GPT-5-Codex的準(zhǔn)確率達(dá)到了51.3%,遠(yuǎn)高于GPT-5-high的33.9%。
其次,GPT-5-Codex此次更新的關(guān)鍵特性就是「動(dòng)態(tài)調(diào)整」資源!
根據(jù)OpenAI內(nèi)部員工的使用數(shù)據(jù),在按模型生成token量(含隱藏推理和最終輸出)排序的后10%用戶請(qǐng)求中,GPT?5-Codex的token消耗量比GPT?5減少93.7%,紅色箭頭處。
相反,在前10%的高復(fù)雜度請(qǐng)求中,GPT?5-Codex會(huì)投入更多思考時(shí)間,其代碼推理、編輯、測(cè)試和迭代的耗時(shí)達(dá)到兩倍,黃色箭頭處。
最后,這次的GPT?5-Codex經(jīng)過(guò)專門訓(xùn)練,非常擅于執(zhí)行代碼審查和發(fā)現(xiàn)關(guān)鍵缺陷。
按照OpenAI的說(shuō)法,他們發(fā)現(xiàn)GPT?5-Codex生成的評(píng)論更不容易出現(xiàn)錯(cuò)誤或不重要的情況,從而讓用戶能將更多注意力集中在關(guān)鍵問(wèn)題上,比如:
「不正確評(píng)論」顯著降低:從13.7%降至4.4%。
「高影響力評(píng)論」顯著增加:從39.4%提升到52.4%
「聚焦關(guān)鍵重點(diǎn)」:平均每個(gè)PR提出的評(píng)論數(shù)從1.32降至0.93
此消彼長(zhǎng),這讓Vibe Coding更加接近于嚴(yán)肅的工程化編程!
為何用Codex命名?
在GPT-5-Codex的「發(fā)布會(huì)」上,Greg聊到了Codex的起源。
最早在GPT-3時(shí)代,他們就發(fā)現(xiàn)模型能根據(jù)文檔串(docstring)自動(dòng)補(bǔ)全函數(shù)代碼,他們認(rèn)為當(dāng)時(shí)就具備了「語(yǔ)言模型寫(xiě)代碼」的可行性。
2021年,OpenAI就率先推出Codex,并與GitHub合作打造Copilot,探索AI直接嵌入開(kāi)發(fā)工作流的可能性。
現(xiàn)在Codex的Web界面
Greg說(shuō)編程一直是OpenAI特別關(guān)注的領(lǐng)域,專門使用代碼數(shù)據(jù)和指標(biāo)來(lái)優(yōu)化模型表現(xiàn),與其他領(lǐng)域不同。
早于Vibe Coding的Harness概念
在這次討論中,Greg還用一個(gè)新的詞語(yǔ)「Harness」來(lái)解釋了OpenAI其實(shí)比流行的Vibe Coding更早就發(fā)現(xiàn)「用語(yǔ)言模型編程」的魔力。
「Harness」這個(gè)詞原意是馬具、韁繩,用來(lái)把馬與車或騎手連接起來(lái),使力量可以被控制和發(fā)揮。
OpenAI的Greg在講Codex時(shí)借用這個(gè)詞,表達(dá)類似的作用:
模型本身就像「馬」或「大腦」,能產(chǎn)生力量(智能、輸入輸出)。
Harness就像「韁繩/集成框架」,把模型和外部環(huán)境(工具、IDE、終端、云端等)連起來(lái),讓它能真正執(zhí)行任務(wù)、發(fā)揮效能。
在做普通語(yǔ)言模型應(yīng)用時(shí),接口(interface)或「韁繩」(harness)其實(shí)很簡(jiǎn)單——模型只是補(bǔ)全一段文字,最多再跟進(jìn)一兩次對(duì)話就結(jié)束了。
但在編程場(chǎng)景下,文本會(huì)「活起來(lái)」,因?yàn)榇a需要真正被執(zhí)行、需要和工具連接才能發(fā)揮作用。
因此,人們意識(shí)到,harness的重要性幾乎和模型本身的智能同等關(guān)鍵,它決定了模型是否真的可用。
OpenAI所謂的harness,就是把模型與其余的基礎(chǔ)設(shè)施整合起來(lái),讓模型能夠真正地對(duì)環(huán)境采取行動(dòng)。
性能與使用體驗(yàn)
這次GPT-5-Codex的延遲是一大亮點(diǎn),代碼補(bǔ)全必須<1.5秒,否則用戶體驗(yàn)差。
GPT-5-Codex可以連續(xù)執(zhí)行長(zhǎng)時(shí)間任務(wù),特別適合大型重構(gòu)、遷移任務(wù)。
此次更新后還支持多模式交互:終端vibe coding、IDE編輯、GitHub集成、Cursor集成等,應(yīng)有盡有,滿足不同開(kāi)發(fā)習(xí)慣。
OpenAI內(nèi)部實(shí)踐
除了GPT-5-Codex外,Greg還爆料了更多內(nèi)幕。
OpenAI在內(nèi)部實(shí)踐中孵化了幾款關(guān)鍵工具,幫助團(tuán)隊(duì)探索AI編程智能體的潛力。
首先是10x,一款內(nèi)部原型,最初在終端運(yùn)行,能顯著提高開(kāi)發(fā)效率。
它支持異步長(zhǎng)時(shí)間執(zhí)行,工程師甚至可以合上筆記本讓任務(wù)繼續(xù)運(yùn)行,因此被認(rèn)為帶來(lái)「十倍生產(chǎn)力」,但因尚未打磨成熟而未對(duì)外發(fā)布 。
其次是Agents.md,這是一個(gè)放在代碼庫(kù)里的說(shuō)明文件,類似專門寫(xiě)給Codex的README。
它能壓縮上下文,減少模型探索代碼的負(fù)擔(dān),同時(shí)存放團(tuán)隊(duì)的開(kāi)發(fā)偏好(如測(cè)試位置、風(fēng)格約定)。這樣 Codex 能更快理解項(xiàng)目環(huán)境,執(zhí)行任務(wù)更高效 。
最后是Code ReviewAgent,這是在內(nèi)部試點(diǎn)后效果最驚艷的工具。
它能理解PR的意圖與實(shí)現(xiàn)是否一致,檢查依賴關(guān)系,發(fā)現(xiàn)人類審查可能遺漏的bug。
內(nèi)部團(tuán)隊(duì)甚至在上線前一晚依賴它審查數(shù)十個(gè)PR,并幾乎零bug發(fā)布。
討論中也提到,2030年的軟件開(kāi)發(fā)將不再是「人寫(xiě)代碼+工具輔助」,而是「AI寫(xiě)大部分代碼+人類監(jiān)督和設(shè)計(jì)架構(gòu)」。
開(kāi)發(fā)者更像是團(tuán)隊(duì)的指揮官,專注于戰(zhàn)略性問(wèn)題和創(chuàng)意設(shè)計(jì),而繁瑣、重復(fù)、危險(xiǎn)的工作則由 AI 智能體承擔(dān)。
收手吧,GPT-5-Codex
現(xiàn)在,編程智能體已經(jīng)成為各大AI巨頭的火力集中點(diǎn),打得火熱!
OpenAI此次發(fā)布GPT-5-Codex也是再次「官宣加入戰(zhàn)場(chǎng)」。
但是,收手吧,外面已經(jīng)全是編程智能體了!
讓我們盤點(diǎn)一下國(guó)內(nèi)外今年到底有多少編程智能體~
國(guó)外通用/主流編程AI智能體
Cursor:深度集成在IDE中,有agent模式,會(huì)檢索本地代碼, 能跨文件操作、項(xiàng)目級(jí)別重構(gòu)等。
Claude Code CLI:代碼diff、工具調(diào)用能力、原型快速實(shí)驗(yàn)。
Gemini CLI:優(yōu)勢(shì)在上下文窗口(context window)、處理大型代碼庫(kù)的重構(gòu)能力強(qiáng)。
GitHub Copilot+Copilot 的擴(kuò)展
國(guó)內(nèi)代表性產(chǎn)品 /平臺(tái)
國(guó)內(nèi)在這個(gè)賽道加速也非???,不少大廠都在做「編程智能體\編程模型」的組合,已經(jīng)有很多專門用于編程的模型和產(chǎn)品。
騰訊的代碼助手CodeBuddy
通義千問(wèn)的Qwen3-Coder
字節(jié)的TRAE
百度的文心智能體平臺(tái)
DeepSeek最新的V3.1系列
比如DeepSeek官方公告指出,V3.1在編程智能體和在命令行 / 終端環(huán)境下解決復(fù)雜任務(wù)中表現(xiàn)比之前的 DeepSeek系列模型有明顯提升。
總體來(lái)看,雖然2025年被稱為智能體之年,但主要還是聚焦在編程智能體。
國(guó)外市場(chǎng)以Cursor、Gemini CLI、Claude Code等為代表,強(qiáng)調(diào)模型執(zhí)行力、重構(gòu)大上下文處理、IDE/CLI無(wú)縫集成等能力。
而國(guó)內(nèi)也同步推出同類型產(chǎn)品對(duì)標(biāo)Cursor和Claude Code等產(chǎn)品。
GPT-5-Codex的上線,讓這場(chǎng)「編程智能體大戰(zhàn)」更加的白熱化!
雖然OpenAI很早就洞察到「語(yǔ)言模型能編程」,但是:
AI編程IDE的認(rèn)知被Cursor摘取了
AI編程CLI的認(rèn)知被Claude Code拿到了。
而且國(guó)內(nèi)還同步跟進(jìn)了各種同類型的產(chǎn)品。
不知道這次起個(gè)大早,趕了晚集的GPT-5-Codex能不能拿下「AI智能體編程」的頭銜~
參考資料:
https://openai.com/index/introducing-upgrades-to-codex/
https://x.com/sama/status/1967650108285259822
https://x.com/OpenAI/status/1967650096813871266