點擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進行分享
新智元報道
編輯:桃子 KingHZ
【新智元導讀】文心X1.1震撼上線,一手實測力壓群雄! 三大能力飆升:事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%。在多項基準測試中,整體表現(xiàn)超越DeepSeek R1-0528,部分保持領先,甚至追上了最頂尖的GPT-5、Gemini 2.5 Pro。
AI圈又雙叒沸騰了!
9日,WAVE SUMMIT深度學習開發(fā)者2025大會上,文心大模型X1.1深度思考模型正式發(fā)布。
相較于文心X1,文心X1.1在事實性、指令遵循、智能體能力三大關鍵指標,實現(xiàn)顯著提升。
具體來說,事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%。
更令人震撼的是,文心X1.1在多項基準測試中,整體表現(xiàn)超越DeepSeek R1-0528,部分保持領先。
甚至,它還與最頂尖的GPT-5、Gemini 2.5 Pro,平起平坐。
文心大模型X1.1能力大漲,背后離不開飛槳的「最強輔助」。
大會上,百度升級發(fā)布飛槳框架v3.2。飛槳文心生態(tài)已吸粉2333萬開發(fā)者,服務76萬家企業(yè)。
從模型到框架,再到生態(tài),百度這一套組合拳打下來,堪稱AI界的「實力派卷王」。
文心X1.1出世,一手實測來了
現(xiàn)在,進入文心一言官網(wǎng)、文小言APP,即可立即體驗最新「文心大模型X1.1」了。
傳送門:https://yiyan.baidu.com/X1
接下來,我們開啟了一波全面實測。
不捏造不猜測,文心X1.1太可靠了
一直以來,LLM憑空捏造、編造事實的問題飽受詬病,被業(yè)界稱之為「幻覺」。
它們往往以自信的口吻生成結果,讓用戶難以辨別真假。
幾天前,OpenAI團隊曾挖出了「幻覺」的根源,在于訓練和評估機制,傾向于獎勵模型的「猜測」行為。
值得一提的是,這一次,文心X1.1通過基于知識一致性的強化學習技術,真正做到了「知識一致性」。
就以昨天的蘋果WWDC發(fā)布會為例,文心X1.1能否精準介紹iPhone 17系列?
當然!從輸出結果看得出,它分列出四款iPhone 17的各種參數(shù)以及價格,并附上了售賣日期。
在深度思考的過程中,文心X1.1聯(lián)網(wǎng)參考了十個網(wǎng)頁,邊搜邊思考,認真確認后才會輸出反饋。
看得出,新模型的工具調(diào)用能力,可接入并實時處理外部數(shù)據(jù)源,讓信息分析與整合唾手可得。
接下來,扔給文心X1.1一個反事實的信息——聽說霉霉結婚了?
在思考時,它會首先確認「霉霉」這個人是誰,然后將任務逐一拆解,分為三步:聯(lián)網(wǎng)搜索相關新聞、分析搜索結果、整理信息。
令人驚喜的是,文心X1.1不僅僅是給出了「未結婚」的答案,它還詳細梳理了一些關鍵信息。
比如,霉霉訂婚事實、結婚傳聞,以及個人財富等。對于用戶來說,這才是真正有溫度、全面的AI。
再比如,網(wǎng)上流傳甚廣的錯誤信息之一:
最近,國產(chǎn)新坦克的集中亮相,的確難以在坦克上發(fā)現(xiàn)汽車一樣的后視鏡。
所以,坦克到底有沒有后視鏡?
文心X1.1從坦克設計理念、演變歷史、功能需求等角度,總結出了真相:
沒有傳統(tǒng)后視鏡,但后方觀察能力更全面。
重要的是,文心X1.1面對虛構、錯誤的信息,能夠指出問題的錯誤,不盲從指令,提供客觀科學的知識。
最近,「時間錯位」的梗在社交平臺上流行起來:「秦王嬴政比我早生千年,是避我鋒芒還是王不見王?」
百度文心X1.1是怎么看待的?
文心沒有掉入其中的「語言陷阱」,針對其中的矛盾深入分析:
首先,文心認為需要確定問題的意圖:到底是開玩笑,還是只是在做某種比喻?
然后,開始回顧歷史背景,指出存在時間錯位問題:
文心X1.1不盲從指令,指出問題中給出的兩個選擇根本不成立!
如果,非要逼問秦始皇為何不避我鋒芒,文心不為所動,直接給出答案:
比如,一個讓歪果仁看到,絕對抓耳撓腮的考題——
「姑姑曾想過過過過過過過的生活」,這里的「過」都有哪些含義?
這種類似結合語境對多義詞語進行解釋的考題,文心X1.1也能一鍵搞定:
·該句子是典型的「同形異義」語言游戲,通過「過」的重復疊加制造語義迷宮,需結合語法結構和上下文逐層解析。
·在口語中,此類句子常用于測試對漢字多義性的理解,或制造幽默/繞口令效果(如「中國隊大勝美國隊」與「中國隊大敗美國隊」的歧義)。
·關鍵在于區(qū)分「過」的詞性(動詞、助詞、形容詞尾)及其在不同位置承擔的語法功能(如完成時、經(jīng)歷義、狀態(tài)描述)。
再長再難的指令,也能遵循
這一次,即便要求再難、指令再長,文心X1.1也能精準識別需求細節(jié),不會遺漏關鍵要素。
先上一道基礎的,一個指令,兩個要求:翻譯+標題H1格式——
請將這句話「人工智能的未來充滿無限可能」翻譯成英文,并用Markdown的H1標題格式呈現(xiàn)出來。
只見文心X1.1準確翻譯后,又給文字應用了Markdown的H1標題格式,非常專業(yè)。
再比如,讓它去模仿一首古詩,給出一個復雜的指令:
模仿李白的《將進酒》韻式、平仄、對仗、情緒、意象等,寫一首詩,形容雨很大,但不要出現(xiàn)一個「雨」字,
要用《平水韻》而不用《中華新韻》,避免古今讀音錯位,
平仄以《欽定詞譜》或《唐詩三百首》原字為準,別自己發(fā)明,
避免「現(xiàn)代感」,避免與原文重復,
避免被人一眼識破,避免「撞車」尷尬。
文心X1.1在思考時,有條理地將任務拆解,然后逐一完成子任務,寫出一首嚴格遵循要求的詩作。
《滂浪辭》
君且看蒼龍倒掛九天來,奔雷裂岫勢不回。
又見銀河傾玉宇,崩云濺沫沒蒼苔。
霆震千峰聲撼岳,電掣萬壑氣吞臺。
風伯鼓潮掀巨浪,濤頭直欲沒蓬萊。
古來豪杰皆沉醉,惟有狂歌動九垓。
陳王宴樂空陳跡,我輩今朝亦快哉。
莫辭盞底琥珀光,且盡壺中琥珀杯。
金羈馬,紫綺裘,呼兒持去換清醅,與爾同銷萬古哀。
再給文心X1.1一個刁鉆的難題——解釋?下西游記講了什么,但在你的回答中絕對不能使用孫悟空、唐僧、豬八戒、沙僧這幾個詞。
不得不說,在講故事這方面,文心靈活變通能力太強了。
正如你所見,輸出全文沒有提及「孫悟空、唐僧、豬八戒、沙僧」,轉(zhuǎn)化表述嚴格遵循了指令,符合原始意圖。
接下來,就要上強度了。
假設你是一個熱衷于分享知識的博物學家。請用表格形式,對比介紹蜜蜂和蝴蝶的三個方面:采食方式、對生態(tài)的作用、給人的常見印象。
表格后,用一句話總結它們最重要的共同點。
讓文心X1.1扮演「博物學家」的角色,也就意味著「稍帶科普性語言」普及知識。同時,還要將其做成表格。
從結果中不難看出,文心X1.1能夠按要求執(zhí)行多步指令,拆解流程,最終聯(lián)網(wǎng)確認,確保邏輯閉環(huán)。
更讓人意想不到的是,它還可以上下文關聯(lián),以3歲孩子的認知講出讓人易懂的共同點。
智能體長手,一鍵完成任務
不僅如此,文心X1.1在智能體自主規(guī)劃拆解任務,調(diào)用工具解決多因素疊加的復雜問題方面,展現(xiàn)出了卓越的能力。
WAVE SUMMIT現(xiàn)場演示了文心X1.1 在共享單車智能客服場景的案例。
當一位共享單車用戶騎車時遇到了故障,情緒激動地向客服一通抱怨::
我真是受夠了!剎車完全失靈了,差點出事!你們這什么垃圾車!趕緊給我處理!
智能客服系統(tǒng)根據(jù)用戶的簡單的問題描述,一步步拆解后,圓滿地完成了任務。
第一步,通過「工具調(diào)用」,獲取訂單的詳情信息。
可以看到,系統(tǒng)在這一步先是分析「當前需要什么信息,已有什么信息,如何獲取缺失的信息」,不是簡單的條件判斷,而是有步驟的決策過程。
第二步,對用戶「剎車失靈」的故障反饋進行歸類,并根據(jù)規(guī)則給予處理措施。
根據(jù)系統(tǒng)規(guī)則3.1,這類問題屬于嚴重的安全故障,騎行中報修需免除相關費用。
在這一步,它不只識別了「剎車失靈」這個關鍵問題,還理解了背后的業(yè)務邏輯:為什么要先免費用?因為用戶遇到了安全類故障。
系統(tǒng)按照先處理安全問題,再處理費用問題的優(yōu)先級,執(zhí)行了業(yè)務設置的流程。
第三步,調(diào)用車輛信息、用戶信息的查詢工具之后,創(chuàng)建一個「維修工單」。
這一步令人驚喜的是,它知道馬上要創(chuàng)建工單,卻也預見到后面要給用戶發(fā)補償全,選擇了并行處理,既提高了效率,又避免了后續(xù)的重復查詢。
第四步,在創(chuàng)建工單的過程中,通過調(diào)用工具,它發(fā)現(xiàn)車輛維修記錄不夠詳細,在嚴格遵守業(yè)務規(guī)則的基礎上,發(fā)揮了推理的功能,使用了用戶的投訴歷史來補充判斷。
第五步,是動態(tài)補償?shù)木_計算。用戶是鉆石等級,遇到安全故障,情緒激動。系統(tǒng)需要從補償矩陣中計算兩個不同的補償金額:20元特殊關懷券和10元情緒安撫券。
一個十元暢騎券,就發(fā)放到用戶的卡包里了。
經(jīng)過這五個步驟,系統(tǒng)有條不紊地解決了用戶的投訴問題,有點兒真人客服的感覺了。
到這里并沒有結束,系統(tǒng)解決完用戶的問題后,還發(fā)現(xiàn)用戶的賬戶里有一張快過期的優(yōu)惠券,又主動提醒用戶別忘了在有效期內(nèi)使用??芍^是很貼心了!
再比如,明天預報預警大霧天氣,想要向全體團隊通知,上班注意安全。
你不需要向每一個人,一一發(fā)送郵件,直接交給文心X1.1就可以了。
只見,它開始調(diào)用各種工具,比如天氣預報、創(chuàng)建任務、獲取成員信息、創(chuàng)建發(fā)送郵件。
最終,全程不用動手,一句話,就讓AI搞定了。
代碼、數(shù)學能力提升
不僅如此,文心X1.1在以上三大能力提升之外,代碼、數(shù)學、多模態(tài)這次也同時進化。
比如,統(tǒng)計數(shù)據(jù)很常見,但要設計一個三維可視化數(shù)據(jù)統(tǒng)計對外行來說,就不簡單。
但文心X1.1幾乎馬上開始理解需求,馬不停蹄地寫代碼:
最后,不僅可視化了三維數(shù)據(jù),還可以與數(shù)據(jù)互動,從不同角度觀察數(shù)據(jù):
而在數(shù)學能力上,文心X1.1也表現(xiàn)出色。
經(jīng)典的數(shù)量關系題型,文心X1.1毫無壓力,幾乎秒答。
比如,下面的問題,回答得很清晰:
編一本書的書頁,用了270個數(shù)字(重復的也算,如頁碼115用了2個1和1個5共3個數(shù)字),問這本書一共多少頁?
再比如,下面關于相對距離的計算,文心X1.1回答準,思路清晰,計算正確,完全可以作為教學模板:
狗追兔子,開始追時狗與兔子相距20米。狗跑了45米后,與兔子還相距8米,狗還需要跑多遠才能追上兔子?
此外,文心X1.1還能處理多模態(tài)數(shù)據(jù)。
比如,下面這張圖,包含復雜的外文:字體既有清晰的印刷體,又有手寫體;包含專業(yè)術語。
一般人真看不明白。
試試問一下文心X1.1,「銳評這張梗圖,想表達什么意思」?
使用工具,利用聯(lián)網(wǎng)搜索,理解圖中內(nèi)容,還搞明白了「Base Model」、「Supervised Tuning」、「RLHF」等專業(yè)術語的含義,原來是諷刺AI領域術語的濫用和過度炒作:
RLHF在ChatGPT中的應用爭議很大,Karpathy和LeCun等專家質(zhì)疑其效果,認為它不是真正的強化學習,而是依賴人類直覺的「直覺泵」。
技術內(nèi)幕曝光
迭代式混合強化學習訓練框架
以上實測中不難看出,文心X1.1逆天表現(xiàn),背后離不開一套核心技術——迭代式混合強化學習訓練框架。
這套框架,不僅能同時優(yōu)化通用任務和智能體任務,還能通過自蒸餾數(shù)據(jù)迭代式生產(chǎn)和訓練提升模型整體效果。
由此一來,把文心X1.1的性能,拉到全新高度。事實性提升34.8%、指令遵循提升12.5%、智能體提升9.6%,表現(xiàn)十分出色。
具體是如何做到的?一起扒一扒核心技術點。
基于知識一致性的強化學習技術
訓練過程中,不斷校驗預訓練模型和后訓練模型的知識一致性,杜絕「跑偏」,讓事實性原地起飛。
基于指令驗證器的強化學習技術
通過自動構建指令檢查清單,并逐一驗證,哪怕再復雜的指令,模型也能精準捕捉。
基于思維和行動鏈的多輪強化學習技術
把思維鏈和行動鏈無縫結合,模型不僅「會思考」,還能「會動手」。
文心X1.1不僅在事實性、指令遵循和智能體任務上表現(xiàn)可靠,還在編碼、數(shù)學等方面展現(xiàn)出強大的推理性能,這才是真正的「六邊形戰(zhàn)士」。
飛槳升級,AI全棧賦能
作為全球少數(shù)全棧AI布局的公司,百度「芯片-框架-模型-應用」四層架構,每一層都有關鍵自研技術,層層之間的反饋,實現(xiàn)端到端優(yōu)化,大幅提升效率和產(chǎn)品服務體驗。
其中,文心和飛槳的聯(lián)合優(yōu)化,更是關鍵。
框架-模型、框架-算力全鏈路打通,讓大模型訓練與推理更快、更穩(wěn)、更節(jié)能。
這一次,百度發(fā)布了飛槳框架v3.2,在大模型訓練、硬件適配和生態(tài)支持上全面升級。
極致計算優(yōu)化、高效并行策略,以及原生容錯能力,讓飛槳框架v3.2實現(xiàn)訓練效率飛升。
具體來說,在ERNIE-4.5-300B-A47B預訓練上實現(xiàn)47% MFU。
同時,它還支持類CUDA芯片適配,實現(xiàn)了最高92%的算子內(nèi)核復用率,還能兼容Safetensors權重,支持一鍵接入生態(tài)加速庫,顯著降低部署成本。
此外,百度還同步升級了大模型高效部署套件FastDeploy,通過模型壓縮、推理和服務協(xié)同優(yōu)化,來提升大模型端到端的推理性能。
基于該套件,ERNIE-4.5-300B-A47B模型在TPOT 50ms時延條件下,實現(xiàn)了輸入57K tokens/秒、輸出29K tokens/秒的高吞吐性能。
當然,要讓開發(fā)者更低門檻的用起來,百度也通過ERNIEKit文心大模型開發(fā)套件提供更加便捷的模型后訓練方案。從效果來看,開發(fā)者僅需4張GPU就能對ERNIE-4.5-300B-A47B模型進行高效調(diào)優(yōu),十分友好。
WAVE SUMMIT 2025大會上,百度開源了一款全新的思考模型——ERNIE-4.5-21B-A3B-Thinking。
作為一款 21B 總參數(shù)量,激活僅 3B 的輕量級模型,在各項測試中緊追業(yè)界頂級大尺寸模型,以輕量級規(guī)模實現(xiàn)了近 SOTA 表現(xiàn)。
它的推理速度明顯更快,對開發(fā)者來說,部署起來更高效、更友好。
早在6月30日,百度直接開源了文心大模型4.5系列,一口氣放出了十款模型。
從47B、3B激活參數(shù)的MoE,到0.3B的稠密模型全覆蓋,而且預訓練權重、推理代碼統(tǒng)統(tǒng)開放。
如今,這些模型被廣泛應用到不同場景中,實實在在地推動了從實驗室到產(chǎn)品的AI創(chuàng)新。
如今,百度生態(tài)的規(guī)?;讶伙@現(xiàn)——飛槳文心開發(fā)者數(shù)量已有2333萬,服務超過76萬家企業(yè)。
這一生態(tài)的繁榮,得益于全棧AI布局的協(xié)同效應,不僅大幅降低AI應用的門檻,還讓開發(fā)者輕松上手復雜應用開發(fā)。
回看從2019年文心1.0的發(fā)布,到今天X1.1深度思考的跨越,百度文心這幾年一直在不斷突破。
從最初的知識融合,走到現(xiàn)在到多模態(tài)智能,每一步都在拓展技術的邊界。
文心大模型X1.1不僅是技術迭代,更是面向行業(yè)的實用進步。
下一步,AI 將繼續(xù)走向更多場景,幫助更多創(chuàng)新想法落地生根。