機器之心報道
機器之心編輯部
當下的大語言模型,不怕它搞不定,就怕它胡說八道:有「幻覺」存在,我們經(jīng)常會下意識地不信任 AI 輸出的結(jié)果。就在上周,OpenAI 的論文《Why Language Models Hallucinate》廣為流傳。研究人員指出,要想消除幻覺,需要修正模型訓練時的評分機制并開發(fā)全新的技術(shù)。
不過 AI 領(lǐng)域里,技術(shù)的發(fā)展速度一直比想象得快,就像是對 OpenAI 研究的呼應(yīng),今天上午 WAVE SUMMIT 深度學習開發(fā)者大會 2025 上,百度發(fā)布的新模型就把「可信度」提升了一大截,除了更準確的事實性,更有指令遵循、智能體等能力的顯著提升。
今天發(fā)布的是文心大模型 X1.1 深度思考模型,它是百度在 4 月份發(fā)布的旗艦?zāi)P?X1 的升級版,發(fā)布即上線,所有人都可以免費體驗。同時該模型通過百度智能云千帆平臺向企業(yè)客戶與開發(fā)者開放使用。
升級后的模型主攻事實性、指令遵循以及智能體、工具調(diào)用能力,帶來了綜合能力的顯著提升。用一組數(shù)據(jù)說話,相較于文心 X1,X1.1 的事實性提升 34.8%,指令遵循提升 12.5%,智能體提升 9.6%。
這意味著它提供信息時更加可靠、執(zhí)行任務(wù)時更加精準,處理復(fù)雜任務(wù)時靈活調(diào)度外部工具與系統(tǒng)資源。
現(xiàn)在,文心 X1.1 面對限定條件多的復(fù)雜內(nèi)容創(chuàng)作任務(wù)游刃有余,抽絲剝繭、準確無誤地歸納總結(jié),過程中調(diào)用了聯(lián)網(wǎng)搜索工具。
如果說上面例子的工具調(diào)用只是牛刀小試,接下來在更復(fù)雜的長程任務(wù)場景,文心大模型 X1.1 展現(xiàn)了全鏈條式的智能體能力。在面對共享單車平臺不同等級用戶,不同類型問題的處理流程,以及用戶的不同情緒狀態(tài)多元素疊加的問題時,文心 X1.1 從免除費用、維修車輛、特殊補償?shù)角榫w安撫,完全有真正的人工客服那味了。
一系列實操效果驗證了文心 X1.1 的實力。在多個權(quán)威基準上,該模型在中文問答、幻覺和多步任務(wù)等方面實現(xiàn)領(lǐng)先,整體效果優(yōu)于 DeepSeek R1-0528,并與 GPT-5 和 Gemini 2.5 Pro 等國際頂尖模型不相上下。
是騾子是馬,在新模型上線之后,我們第一時間進行了高強度測試。
全方位測評
這一次,大模型給了我們信心
目前,我們在文心一言官網(wǎng)、文小言 App 上都可以直接使用文心 X1.1,它可以自動調(diào)用工具。
官網(wǎng)地址:https://yiyan.baidu.com/X1
事實性測試題
首先我們測試文心 X1.1 在事實性方面的表現(xiàn)。事實性是衡量大模型在回答客觀問題時,是否能夠提供準確、可靠信息的重要指標。
一直以來,幻覺是大模型的固有挑戰(zhàn)之一。這種現(xiàn)象不僅影響用戶信任,也制約了其在關(guān)鍵領(lǐng)域的落地應(yīng)用,比如醫(yī)療、法律和科研。不知文心 X1.1 在這方面表現(xiàn)如何?
我們先來測試一個違反常識的問題,看看文心 X1.1 是否順著用戶意圖、不按事實地胡編亂造。
不知大家是否還記得最近很出圈的一個新聞,一張海報顯示樹上結(jié)滿了花生?我們看看文心 X1.1 是如何解釋的?只見文心 X1.1 思考了一會,指出用戶有誤,給出花生是地下成熟的。
在經(jīng)過深入的分析后,給出如下答案:
通過這一案例可以看出,文心 X1.1 在常識性錯誤識別上具備一定的敏感性和準確性,能夠在面對虛構(gòu)或荒謬的描述時,不盲從,而是主動提供正確的科學信息。這種能力對于保證模型的事實性與可靠性至關(guān)重要。
再來一道具有迷惑性的問題:愛因斯坦為什么沒有獲得諾貝爾獎?同樣,面對虛構(gòu)或錯誤信息,文心 X1.1 也回答正確,指出愛因斯坦在 1921 年獲得了諾貝爾物理學獎,獲獎原因不是相對論,而是基于他對光電效應(yīng)的開創(chuàng)性研究。
幾個示例測下來,我們發(fā)現(xiàn)文心 X1.1 在事實性方面的表現(xiàn)還是不錯的。
這也促使我們進一步思考一個關(guān)鍵問題:在評估模型事實性表現(xiàn)時,理解語言的歧義性同樣非常重要,特別是在中文語境下,由于語法結(jié)構(gòu)靈活,一詞多義現(xiàn)象極為常見,極大地增加了模型理解的復(fù)雜度。
舉個例子「過馬路時,老師叮囑學生:看車!」與「我去車展看車」意義完全不一樣。我們看看文心 X1.1 對此的解釋。
不難發(fā)現(xiàn),文心 X1.1 給出的解釋相當?shù)轿唬哼^馬路看車是安全警示指令,去車展看車是目的性參觀行為。
看來,面對一詞多義的情況,也沒有難倒文心 X1.1。
我們再來看看模型對時效信息的處理能力,最近網(wǎng)絡(luò)上流行起脫脂牛馬這一新梗,那么,大模型能否準確識別這類最新流行語的含義和語境?
令人驚喜的是,文心 X1.1 精準的描述了該詞的核心含義:脫脂牛馬指的是一邊上班拼命工作,一邊努力減肥 / 管理身材。不僅如此,還給出了很多衍生詞,如全脂牛馬、低脂牛馬。
指令遵循
指令遵循一直是評估大模型核心能力的重要指標之一。它不僅僅是聽懂指令這么簡單,更是對模型理解、解析、執(zhí)行等能力提出了嚴格的考驗。如果模型不能準確抓住用戶需求,哪怕生成內(nèi)容再漂亮,也容易出現(xiàn)答非所問,讓用戶覺得不聽話。
接下來,我們測試文心 X1.1 在這方面的能力。
9 月正是開學的日子,自我介紹往往是同學之間相互認識的第一步。面對新同學、新老師,你有沒有想好要怎樣介紹自己呢?這個活,現(xiàn)在完全可以交給文心 X1.1 了。
在這個任務(wù)中,我們可謂是百般刁難,給大模型提出了很多無理要求,如字數(shù)要求,文風要求,必須出現(xiàn)的內(nèi)容,不能出現(xiàn)的內(nèi)容??纯创竽P湍芊窠诱小?/p>
文心 X1.1 不僅能聽懂人話,更能按規(guī)矩寫作。在我們明確指出不能出現(xiàn)「我叫」這樣的限制條件下,它并未像部分模型那樣默認套用通用開場模板,而是靈活調(diào)整表達方式,文風也歡快有趣。展現(xiàn)出較強的指令理解與執(zhí)行能力。
再來一個,這不馬上快到國慶節(jié)了,想必很多人都在規(guī)劃出游的路線,如果你沒想好,也可以交給文心 X1.1。
在這個示例中,我們給出的指令非常模糊,說了想去南方,然后零零散散的提出了一些要求。
我們發(fā)現(xiàn)文心 X1.1 很會抓重點,知道我們想去南方,三個大人、兩個孩子,還排除了杭州,因為之前去過了。最后經(jīng)過分析,給出了建議城市廈門,而且整個行程安排得井井有條:從每天的交通與酒店入住,到必去的親子景點、美食打卡點,再到預(yù)估的人均費用,都寫得清清楚楚。
看完文心 X1.1 的推薦,不得不說還在費盡心思做旅游攻略的小伙伴,不妨試試文心 X1.1,讓 AI 來幫你省心省力搞定行程規(guī)劃。
文心 X1.1 這種指令遵循能力,不僅提升了模型對復(fù)雜需求的執(zhí)行力,也顯著拓寬了它的應(yīng)用邊界。尤其在面對多條件、強約束、模糊描述等高要求場景時,這對于需要高精度理解與高可控輸出的實際應(yīng)用而言,無疑是一項關(guān)鍵能力。
智能體、工具調(diào)用
文心 X1.1 一大亮點是智能體能力提升。它不再局限于單純的文本生成,而是能夠根據(jù)用戶的需求,自主規(guī)劃拆解任務(wù),調(diào)度外部工具與服務(wù),最后整合輸出結(jié)果給用戶,實現(xiàn)能說到能做的躍遷。
最近,北京杜莎夫人蠟像館發(fā)布停業(yè)公告,我們測試一下文心 X1.1 是如何處理這種及時信息的。
只見文心 X1.1 用了很少的思考時間就得出北京杜莎夫人蠟像館將于 2025 年 10 月 1 日起永久關(guān)閉的消息,可謂又快又準。
值得一提的是,在回看它的思考過程時,我們發(fā)現(xiàn)文心 X1.1 使用了聯(lián)網(wǎng)搜索工具,這意味著它并非完全依賴已有的固化知識,而是在遇到較強或罕見的問題時,會主動調(diào)用外部工具,以拓展自身的知識范圍,并且還給出了參考鏈接,這不僅增強了回答的可溯源性,也讓用戶更容易判斷其信息來源的權(quán)威性與可靠性。
多面手屬性盡顯無疑
除了以上主打的幾項能力,文心 X1.1 在常規(guī)的代碼、數(shù)學、多模態(tài)、創(chuàng)作問答等任務(wù)中同樣表現(xiàn)出色。
先來瞧瞧代碼能力,「使用 p5.js 創(chuàng)建一個精彩的動畫」,文心 X1.1 一口氣生成了百余行代碼。
運行之后的動畫效果看起來還不錯。
再來考察一下文心 X1.1 的圖像理解與推理能力,扔給它一張梗圖,圖中還有文字。
在經(jīng)過一番深度思考(包括調(diào)用圖片理解工具)之后,文心 X1.1 給出了多個維度的全面解讀。
接下來,我們測試文心 X1.1 的數(shù)學能力,同樣答對了。
最后,我們還讓文心 X1.1 模仿林黛玉的 style,寫一篇吐槽工作的段子。
可以看出,這段模仿在風格、用詞、情感表達上都較好地捕捉到了林黛玉的特點,同時結(jié)合了現(xiàn)代職場的不滿情緒,形成了既有古典韻味又有現(xiàn)代共鳴的吐槽段子。
在一通測試后發(fā)現(xiàn),文心 X1.1 的最大特點在于「實用性」的進化:它能夠充分減少大模型幻覺,提供科學客觀的知識,甚至可以分辨出網(wǎng)絡(luò)中存在的錯誤內(nèi)容;在不同語境中,模型能夠?qū)Χ嗔x詞進行解釋;此外,文心 X1.1 能夠分析外部的信息源,時效性獲得了進一步的增強。
這不禁讓我們好奇,在這背后,是哪些核心技術(shù)的升級?
玩轉(zhuǎn)強化學習,還有飛槳獨門優(yōu)化
自 o1 和 R1 引發(fā)全行業(yè)關(guān)注以來,推理模型的發(fā)展可謂日新月異。思維鏈、多步推理等技術(shù)的普及,以及 MoE 架構(gòu)和量化、蒸餾、稀疏化等高效推理優(yōu)化手段的加持,讓推理準確性、可靠性、速度更強更快。
如今,推理模態(tài)也從單一文本擴展到了文本 + 視覺的多模態(tài)。最近的 GPT-5 等混合推理可以更加智能地區(qū)分難易問題,自動分配合適的模型來處理,效率更高、成本更低。
可以說,AI 推理正在不斷朝著更接近人類的思維模式演進。此次,文心 X1.1 能夠在事實性、指令遵循和智能體任務(wù)中表現(xiàn)不俗,最重要的是采用了迭代式混合強化學習訓練框架
作為基于文心 4.5 訓練的深度思考模型,X1 系列在技術(shù)層面繼承了多項強化學習技術(shù),并在訓練穩(wěn)定性、數(shù)據(jù)利用效率、融合思考與行動的復(fù)合思維鏈以及工具調(diào)用等多個維度持續(xù)優(yōu)化。
最新版本的文心 X1.1 一方面在混合強化學習的基礎(chǔ)上融合提升通用任務(wù)與智能體任務(wù)的效果,優(yōu)化不同的推理路徑和行為策略,增強多任務(wù)處理能力;另一方面,通過自蒸餾數(shù)據(jù)的迭代式生產(chǎn)及訓練,不斷提升模型整體效果。
除了在訓練框架中引入強化學習策略,文心 X1.1 還用基于知識一致性的強化學習技術(shù)提高事實性推理的可靠性,用基于指令驗證器的強化學習技術(shù)確保模型嚴格遵循復(fù)雜指令,用基于思維鏈和行動鏈的多輪強化學習技術(shù)將模型的推理過程與實際執(zhí)行緊密結(jié)合。
這些核心技術(shù)組件共同構(gòu)筑起了文心 X1.1 強大能力的內(nèi)部根基,并從根本上提升了其作為創(chuàng)作與生產(chǎn)工具的可用性。
而文心 X1.1 推理能力發(fā)展到如今的程度,同樣離不開飛槳深度學習框架與文心模型的聯(lián)合優(yōu)化,這正是百度在大模型領(lǐng)域長期保持技術(shù)領(lǐng)先的優(yōu)勢。
此次,百度將飛槳框架升級到了 v3.2,進一步優(yōu)化大模型訓推和硬件適配能力,還有更多高效易用的開發(fā)工具亮相。新版本的發(fā)布,使得其與文心模型的協(xié)同優(yōu)化更加緊密。
在訓練層面,飛槳框架 v3.2 強化了極致計算優(yōu)化、高效并行策略和框架原生容錯能力。利用存算重疊的稀疏掩碼注意?計算 FlashMask V3 提升稀疏數(shù)據(jù)處理效率,利用 FP8 混合精度效果無損訓練技術(shù)減少訓練中的精度損失;采用動態(tài)自適應(yīng)的顯存卸載策略以及顯存友好的流水線并行調(diào)用,降低顯存開銷;引入大規(guī)模集群訓練容錯系統(tǒng),在線監(jiān)測靜默數(shù)據(jù)損壞等隱性故障,并通過高可用的檢查點容災(zāi)方法讓模型快速從訓練中斷中恢復(fù)。
這么一套訓練優(yōu)化組合拳打下來,文心 X1.1 以及 4.5 系列模型的性能均上了一個臺階,在文心最大規(guī)模的 4.5 文本模型「ERNIE-4.5-300B-A47B」的預(yù)訓練上取得了47% 的 MFU(模型吞吐量利用率)。
在推理層面,采用卷積編 2 比特極致壓縮、可插拔稀疏化輕量注意力、混合動態(tài)自適應(yīng)多步投機解碼以及通信存儲計算深度協(xié)同優(yōu)化的大規(guī)模 P/D 分離部署等技術(shù),為大模型的高效部署和高性能推理釋放全棧式能力。以激活參數(shù)量 470 億、總參數(shù)量 3000 億的 ERNIE-4.5-300B-A47B 為例,這些技術(shù)的應(yīng)用取得很好的效果,在 TPOT 50ms 的響應(yīng)延遲下,吞吐量達到 57K tokens/s,輸出吞吐量也有 29K tokens/s
框架與模型的深度耦合,增效的同時減少算力浪費,讓訓練與推理更加可持續(xù);模型也從「能跑」進化到「跑得穩(wěn)、跑得快」,更接近實際應(yīng)用場景的需求,為今后的規(guī)模化應(yīng)用提供支撐。
此外,飛槳框架 v3.2 的升級還帶來了以下幾項關(guān)鍵改進,進一步提升了框架本身的整體表現(xiàn)。
升級類 CUDA 芯片適配方案,現(xiàn)在一行代碼就可以完成類 CUDA 算子注冊,算子內(nèi)核復(fù)用率達到了 92%,適配成本大大降低;實現(xiàn)對業(yè)界主流大模型的支持,并在原生支持 Safetensors 權(quán)重格式的基礎(chǔ)上一鍵接入高性能加速庫。文心大模型開發(fā)套件 ERNIEKit 和?模型高效部署套件 FastDeploy v2.2,前者幫助更高效地構(gòu)建和訓練大模型,后者優(yōu)化模型部署和推理效率。
新版本的飛槳在打通硬件適配、簡化工作流、強化端到端部署方面全面發(fā)力,為包括 X1.1 在內(nèi)的文心大模型持續(xù)進化帶來了穩(wěn)且強的引擎。
所有這些共同打造了百度在大模型生態(tài)中的核心競爭力。目前,2333 萬開發(fā)者和 76 萬家企業(yè)已經(jīng)接入到飛槳文心生態(tài)中。
在大模型落地的前沿,文心大模型已經(jīng)無處不在,在數(shù)字人、劇本生成、動態(tài)視頻生成、語音合成等領(lǐng)域重塑人們的創(chuàng)作方式與智能體驗。
One more thing:開源
除了在模型與框架上的升級,百度還為開發(fā)者準備了一份「開源驚喜」。
在今年 6 月,百度開源文心大模型 4.5 系列,一口氣放出了 10 款大模型,得到了研究社區(qū)的歡迎。今天的 WAVE SUMMIT 上,百度開源了最新的深度思考模型「ERNIE-4.5-21B-A3B-Thinking」
該模型基于 ERNIE-4.5-21B-A3B-Base 進?步訓練而來,引入深度思考能力。相較于全新發(fā)布的文心 X1.1,它的速度更快,事實性、指令遵循、智能體與工具調(diào)用以及其他綜合性能力同樣表現(xiàn)出色。
這次的開源,釋放出了一種明顯的信號:百度將繼續(xù)加大前沿 AI 能力的開放與普惠力度,為開發(fā)者帶來更多直接可用的大模型。
講事實、會推理的大模型已來到我們手中
文心大模型 X1.1 代表了國產(chǎn)大模型推理能力的新高點,它在邏輯思考、降低幻覺等方面的優(yōu)勢,不僅是值得業(yè)界關(guān)注的技術(shù)創(chuàng)新,對于 AI 技術(shù)的廣大用戶來說,也讓大模型工具向?qū)嵱没~進了一大步。
作為國內(nèi)最早全力投入 AI 的科技大廠,百度從 2013 年起至今已經(jīng)打造了從芯片、AI 框架、模型到應(yīng)用的全棧 AI 能力。不得不說,百度這一套在全球范圍內(nèi)為數(shù)不多的全體系 AI 在大模型時代占盡了先機,而且實現(xiàn)了持續(xù)發(fā)力。
在國內(nèi)大模型進入到以實用化、產(chǎn)業(yè)化為特征的新階段,AI 加速向現(xiàn)實生產(chǎn)力的轉(zhuǎn)化有了更強的大模型引擎。
文心大模型和飛槳持續(xù)聯(lián)合優(yōu)化,在競爭激烈的大模型賽道上,百度正在基于長期以來的技術(shù)積累,為業(yè)界持續(xù)帶來領(lǐng)先的技術(shù)和好用的應(yīng)用。
不過從現(xiàn)在開始,講事實、會推理的大模型已經(jīng)來到我們手中了。