這項由百川智能公司研究團隊開發(fā)的創(chuàng)新技術(shù)于2025年1月發(fā)表在arXiv預(yù)印本平臺上,論文題為《BAICHUAN-OMNI-1.5 TECHNICAL REPORT》。有興趣深入了解的讀者可以通過論文編號arXiv:2501.15368v1訪問完整研究報告,或訪問項目主頁https://github.com/baichuan-inc/Baichuan-Omni-1.5獲取更多信息。
在人工智能快速發(fā)展的今天,我們見證了一個令人興奮的突破。百川智能的研究團隊成功開發(fā)出了一個名為Baichuan-Omni-1.5的全能AI模型,這個模型就像是一個超級聰明的助手,不僅能夠理解文字,還能"看懂"圖片和視頻,甚至能"聽懂"語音,最神奇的是它還能像人一樣"說話"。
設(shè)想一下,如果你有一個朋友既精通文學(xué),又是藝術(shù)鑒賞專家,同時還是影視評論家和語言天才,那么Baichuan-Omni-1.5就像是這樣一個全才朋友的數(shù)字化版本。與目前市面上大多數(shù)只能處理單一類型信息的AI系統(tǒng)不同,這個模型實現(xiàn)了真正意義上的"全感官"理解能力。
這項研究的重要性在于它解決了一個長期困擾AI領(lǐng)域的難題。過去,如果你想讓AI同時處理圖片、文字和語音,就需要把這些任務(wù)分別交給不同的專門系統(tǒng),就像需要分別請教不同領(lǐng)域的專家一樣。這不僅效率低下,而且各個系統(tǒng)之間缺乏協(xié)調(diào),經(jīng)常出現(xiàn)"各說各話"的情況。Baichuan-Omni-1.5的突破在于將所有這些能力整合到一個系統(tǒng)中,讓AI能夠像人類一樣自然地在不同感官之間切換和整合信息。
更令人興奮的是,這個模型不僅能理解多種形式的輸入,還能生成高質(zhì)量的語音輸出。這意味著你可以向它展示一張圖片,用語音提問,然后它會用自然流暢的語音回答你的問題。整個交互過程就像是在與一個真正的人類專家對話一樣自然。
一、海量優(yōu)質(zhì)數(shù)據(jù)的精心烹飪
要訓(xùn)練出如此全能的AI模型,就像烹飪一道復(fù)雜的滿漢全席一樣,需要準備各種高品質(zhì)的"食材"。百川智能的研究團隊為此收集了約500億條高質(zhì)量的多模態(tài)數(shù)據(jù),這個數(shù)字聽起來可能很抽象,但如果把這些數(shù)據(jù)比作書籍的話,相當于一個擁有數(shù)千萬冊圖書的超大型圖書館。
這些數(shù)據(jù)涵蓋了人類交流的各個方面。首先是文字數(shù)據(jù),研究團隊從網(wǎng)頁、書籍、學(xué)術(shù)論文、代碼等各種來源收集了1.507億條純文字信息。這就像是讓AI閱讀了一個龐大的圖書館,從文學(xué)作品到技術(shù)手冊,從新聞報道到學(xué)術(shù)論文,應(yīng)有盡有。
在圖像數(shù)據(jù)方面,團隊收集了超過2.38億張圖片及其對應(yīng)的文字描述。這些圖片不僅包括日常生活場景,還涵蓋了專業(yè)的圖表、醫(yī)學(xué)影像、手寫文字識別等各種類型。為了確保數(shù)據(jù)質(zhì)量,研究團隊還專門訓(xùn)練了一個圖片描述生成模型,為那些缺少文字說明的圖片添加詳細而準確的描述。
視頻數(shù)據(jù)的處理更加復(fù)雜。研究團隊收集了3100萬個視頻片段,這些視頻涵蓋了從簡單的日?;顒拥綇?fù)雜的專業(yè)內(nèi)容。為了讓AI更好地理解視頻內(nèi)容,他們還使用了GPT-4o這樣的先進模型來為視頻生成高質(zhì)量的描述文字。
最有趣的是音頻數(shù)據(jù)的處理。研究團隊收集了88.7萬小時的音頻內(nèi)容,相當于連續(xù)播放100多年的音頻材料。這些音頻不僅包括普通的語音對話,還包括各種語音問答、語音翻譯,甚至是音頻與文字混合的對話內(nèi)容。為了讓AI能夠生成自然的語音,他們還收集了大量的文字轉(zhuǎn)語音數(shù)據(jù)。
特別值得一提的是,研究團隊還創(chuàng)造了一種全新的跨模態(tài)交互數(shù)據(jù)。他們將圖片、視頻、文字和音頻巧妙地組合起來,創(chuàng)造出了1000億個token的跨模態(tài)交互數(shù)據(jù)。這就像是教AI學(xué)會在看圖片的同時聽音頻,在閱讀文字的同時觀看視頻,真正實現(xiàn)了多感官的協(xié)同學(xué)習。
二、獨創(chuàng)的音頻理解與生成技術(shù)
Baichuan-Omni-1.5最令人印象深刻的創(chuàng)新之一就是它的音頻處理能力。研究團隊開發(fā)了一個名為"Baichuan-Audio-Tokenizer"的專門技術(shù),這個技術(shù)就像是一個超級翻譯器,能夠?qū)⑷祟惖恼Z音轉(zhuǎn)換成AI能夠理解的"數(shù)字密碼"。
這個音頻處理系統(tǒng)采用了一種叫做"殘差向量量化"的技術(shù),聽起來很復(fù)雜,但其實可以用錄音設(shè)備來比喻。傳統(tǒng)的錄音設(shè)備只能記錄聲音的表面信息,就像只能拍攝物體表面的照片一樣。而Baichuan的音頻技術(shù)就像是一臺能夠透視的錄音設(shè)備,不僅能記錄聲音的表面特征,還能"看透"聲音背后的語義內(nèi)容。
這項技術(shù)的關(guān)鍵在于它使用了8層的處理結(jié)構(gòu),每一層都負責捕捉音頻的不同方面信息。第一層可能負責識別基本的聲音特征,比如音調(diào)高低;第二層可能負責識別語音的節(jié)奏和停頓;更深層的結(jié)構(gòu)則負責理解語音的語義內(nèi)容。這種分層處理的方式確保了AI既能理解"你說了什么",也能理解"你是怎么說的"。
在語音生成方面,研究團隊使用了一種叫做"流匹配"的先進技術(shù)。這種技術(shù)可以類比為一個非常專業(yè)的配音演員。普通的文字轉(zhuǎn)語音系統(tǒng)就像是一個只會機械朗讀的機器人,聲音僵硬不自然。而Baichuan的語音生成系統(tǒng)就像是一個經(jīng)驗豐富的配音演員,不僅能準確發(fā)音,還能根據(jù)上下文調(diào)整語調(diào)、節(jié)奏和情感色彩。
這個語音生成系統(tǒng)支持中英文雙語,能夠產(chǎn)生自然流暢的對話語音。更重要的是,它實現(xiàn)了實時語音生成,這意味著用戶可以像與真人對話一樣與AI進行實時交流,而不需要等待漫長的處理時間。
三、漸進式的多階段訓(xùn)練策略
訓(xùn)練如此復(fù)雜的全能AI模型,就像培養(yǎng)一個從嬰兒成長為博學(xué)多才的學(xué)者的過程。百川智能的研究團隊設(shè)計了一個精妙的四階段訓(xùn)練策略,讓AI循序漸進地掌握各種技能。
第一階段是"圖像-文字預(yù)訓(xùn)練",就像是先教孩子認識圖片和文字的關(guān)系。在這個階段,AI學(xué)會了如何將看到的圖像與相應(yīng)的文字描述聯(lián)系起來。研究團隊使用了3000億個圖像-文字配對樣本進行訓(xùn)練,這相當于讓AI看了3000億張配有詳細說明的圖片。這個階段又分為兩個子步驟:首先凍結(jié)大部分模型參數(shù),只訓(xùn)練視覺投影器,讓AI學(xué)會基本的圖像理解能力;然后逐步放開更多參數(shù),讓AI能夠更深入地理解圖像內(nèi)容。
第二階段是"圖像-音頻-文字預(yù)訓(xùn)練",這就像是在孩子已經(jīng)認識圖片和文字的基礎(chǔ)上,再教他們理解聲音。這個階段的關(guān)鍵是引入了音頻處理能力,讓AI學(xué)會如何處理語音輸入并生成語音輸出。研究團隊使用了88.7萬小時的語音-文字數(shù)據(jù)進行訓(xùn)練,包括語音識別、語音問答、語音翻譯等各種任務(wù)。
這個階段同樣采用了兩步訓(xùn)練策略。首先凍結(jié)語言模型和視覺模塊,只訓(xùn)練音頻相關(guān)的組件,讓AI學(xué)會基本的音頻處理能力。然后逐步解凍更多參數(shù),讓音頻能力與已有的圖像和文字能力實現(xiàn)融合。
第三階段是"全模態(tài)預(yù)訓(xùn)練",這是整個訓(xùn)練過程中最關(guān)鍵的一步,就像是讓已經(jīng)掌握各種基礎(chǔ)技能的學(xué)生學(xué)會綜合運用這些技能。在這個階段,AI需要學(xué)會同時處理圖像、視頻、音頻和文字,并且能夠在這些不同模態(tài)之間建立復(fù)雜的關(guān)聯(lián)。
為了支持長視頻和長音頻的處理,研究團隊將模型的最大序列長度擴展到了64000個token,這相當于讓AI能夠"記住"并處理長達數(shù)小時的連續(xù)內(nèi)容。輸入的視頻幀以每秒1幀的速率采樣,每個視頻最多包含32幀,每幀的分辨率可達560×1120像素,確保了視頻內(nèi)容的清晰度和細節(jié)保存。
第四階段是"全模態(tài)監(jiān)督微調(diào)",這就像是讓掌握了各種技能的學(xué)生通過實際應(yīng)用來完善和精進這些技能。研究團隊收集了約1700萬個跨各種模態(tài)的高質(zhì)量指令-回答對,涵蓋了文字、音頻、圖像-文字、視頻-文字,以及圖像-音頻組合等各種類型的任務(wù)。
這個階段又分為兩個子步驟:首先凍結(jié)音頻生成相關(guān)組件,專注于提升模型的理解能力和多模態(tài)交互能力;然后只激活音頻生成組件,專門訓(xùn)練語音輸出能力,確保生成的語音自然流暢。
四、卓越的性能表現(xiàn)與全面評估
為了驗證Baichuan-Omni-1.5的實際能力,研究團隊進行了一系列全面而嚴格的測試,就像是對一個全才學(xué)生進行各科目的綜合考試。測試結(jié)果顯示,這個模型在各個方面都表現(xiàn)出色,甚至在某些任務(wù)上超越了目前最先進的競爭對手。
在純文字理解任務(wù)上,Baichuan-Omni-1.5表現(xiàn)出了令人印象深刻的能力。在MMLU這個包含57個不同領(lǐng)域知識的綜合測試中,它獲得了72.2%的準確率,超過了同等規(guī)模的其他模型。更難得的是,在中文理解能力方面,它在CMMLU測試中達到了75.5%的準確率,在C-Eval測試中達到了73.1%的準確率,顯著超越了其他全模態(tài)模型。這說明即使在學(xué)習處理多種類型信息的過程中,它也沒有"顧此失彼",反而在文字理解方面變得更加強大。
在圖像理解方面,Baichuan-Omni-1.5的表現(xiàn)同樣出色。在MMBench這個綜合性視覺理解測試中,它在英文版本上達到了85.6%的準確率,在中文版本上達到了83.6%的準確率,均超過了GPT-4o-mini的表現(xiàn)。在需要專業(yè)知識的MMMU測試中,它達到了53.9%的準確率,展現(xiàn)了強大的專業(yè)視覺推理能力。特別值得一提的是,在數(shù)學(xué)視覺推理MathVista-mini測試中,它達到了63.6%的準確率,在圖表理解ChartQA測試中達到了84.9%的準確率,這些結(jié)果表明它不僅能"看懂"圖片,還能進行復(fù)雜的視覺推理。
視頻理解能力測試顯示,Baichuan-Omni-1.5在處理動態(tài)視覺內(nèi)容方面也非常出色。在EgoSchema這個需要長時間視頻理解的測試中,它達到了62.4%的準確率,在VideoMME測試中達到了60.1%的準確率。這些成績表明它不僅能理解靜態(tài)圖片,還能跟蹤和理解視頻中的動態(tài)變化和時序關(guān)系。
音頻理解能力的測試結(jié)果更是令人振奮。在研究團隊自建的OpenAudioBench測試集上,Baichuan-Omni-1.5在語音問答任務(wù)中達到了50.0%的準確率,在語音對話評估中達到了7.79分(滿分10分)。更重要的是,它實現(xiàn)了端到端的語音交互,能夠直接處理語音輸入并生成語音輸出,避免了傳統(tǒng)方法中語音識別-文字處理-語音合成這種復(fù)雜流程帶來的延遲和信息損失。
在跨模態(tài)理解測試中,Baichuan-Omni-1.5展現(xiàn)了其獨特優(yōu)勢。在OmniBench這個專門測試多模態(tài)協(xié)同能力的基準測試中,它在圖像與音頻組合輸入的任務(wù)中達到了42.9%的準確率,顯著超過了其他競爭模型。這說明它真正學(xué)會了如何同時處理和整合來自不同感官的信息。
五、醫(yī)療領(lǐng)域的突出表現(xiàn)
讓人意外的是,Baichuan-Omni-1.5在醫(yī)療圖像理解方面表現(xiàn)出了特別突出的能力,這就像是一個全才學(xué)生意外發(fā)現(xiàn)自己在醫(yī)學(xué)方面有特殊天賦一樣。在GMAI-MMBench這個專門測試醫(yī)療多模態(tài)理解的基準測試中,它達到了49.9%的準確率,超過了GPT-4o-mini的46.4%。
更令人震驚的是,在研究團隊構(gòu)建的OpenMM-Medical測試集上,Baichuan-Omni-1.5取得了83.8%的驚人準確率,不僅大幅超越了同等規(guī)模的MiniCPM-o 2.6模型的73.6%,甚至超過了參數(shù)量是其10倍的Qwen2-VL-72B模型的80.7%。這個結(jié)果表明,僅用7B參數(shù)的Baichuan-Omni-1.5在醫(yī)療圖像理解方面達到了業(yè)界領(lǐng)先水平。
OpenMM-Medical測試集涵蓋了42個不同的醫(yī)療圖像數(shù)據(jù)集,包括眼底攝影、顯微鏡圖像、X光片等各種類型的醫(yī)療影像,總共包含88996張醫(yī)療圖像。每張圖像都配有專業(yè)的多選題問答,需要AI具備專業(yè)的醫(yī)學(xué)知識才能正確回答。Baichuan-Omni-1.5在如此廣泛和專業(yè)的醫(yī)療內(nèi)容上取得如此優(yōu)異的表現(xiàn),表明它有潛力成為醫(yī)療專業(yè)人士的得力助手。
這種在醫(yī)療領(lǐng)域的突出表現(xiàn)可能源于其全模態(tài)學(xué)習能力。在學(xué)習過程中,模型不僅看到了大量的醫(yī)療圖像,還學(xué)會了將這些圖像與相關(guān)的文字描述、音頻解釋等信息關(guān)聯(lián)起來,形成了更加全面和深入的醫(yī)療知識理解。
六、技術(shù)創(chuàng)新的核心突破
Baichuan-Omni-1.5的成功并非偶然,而是源于幾個關(guān)鍵技術(shù)創(chuàng)新的巧妙結(jié)合。首先是其獨特的模型架構(gòu)設(shè)計。整個系統(tǒng)就像是一個精密的交響樂團,視覺編碼器、音頻編碼器和語言模型各司其職,卻又完美協(xié)調(diào)。
視覺分支采用了Qwen2-VL的NaViT架構(gòu),這種設(shè)計的巧妙之處在于它能夠動態(tài)處理任意分辨率和寬高比的圖像和視頻。就像一個經(jīng)驗豐富的攝影師,不管面對什么樣的拍攝對象,都能找到最合適的構(gòu)圖和焦距。研究團隊還使用了一個兩層MLP投影器,將視覺特征壓縮2×2倍,在保持性能的同時提高了處理效率。
音頻分支的設(shè)計更是匠心獨運。Baichuan-Audio-Tokenizer采用了12.5Hz的幀率,這個看似普通的數(shù)字背后蘊含著深刻的技術(shù)考量。這個幀率既保證了音頻信息的完整性,又避免了過度的計算負擔。整個音頻處理流程包括Whisper大型編碼器提取高級特征,殘差卷積網(wǎng)絡(luò)進行下采樣,8層殘差向量量化器生成音頻token,以及基于流匹配的解碼器生成最終語音。
更重要的是,研究團隊解決了一個長期困擾多模態(tài)模型的關(guān)鍵問題——模態(tài)沖突。當一個模型同時學(xué)習處理文字、圖像、音頻等不同類型信息時,往往會出現(xiàn)"顧此失彼"的情況,學(xué)會了圖像理解就忘記了文字能力,或者音頻能力強了視覺能力就下降。Baichuan-Omni-1.5通過精心設(shè)計的訓(xùn)練策略和數(shù)據(jù)平衡,成功避免了這個問題,實現(xiàn)了各種能力的協(xié)同提升。
數(shù)據(jù)處理策略也是一大創(chuàng)新。研究團隊不僅收集了海量數(shù)據(jù),更重要的是建立了一套完整的數(shù)據(jù)清洗和合成流水線。他們使用先進的標注模型為圖像生成高質(zhì)量描述,使用GPT-4o為視頻生成專業(yè)解說,甚至創(chuàng)造性地生成了大量中文多模態(tài)數(shù)據(jù)來平衡模型的中英文能力。
七、實際應(yīng)用場景與未來前景
Baichuan-Omni-1.5的能力遠遠超越了實驗室測試,它在實際應(yīng)用中展現(xiàn)出了巨大的潛力。在教育領(lǐng)域,它可以成為一個全能的智能導(dǎo)師。學(xué)生可以向它展示數(shù)學(xué)題目的照片,用語音提問解題思路,它會用清晰的語音解釋解題步驟,甚至可以根據(jù)學(xué)生的理解程度調(diào)整講解方式。
在醫(yī)療健康領(lǐng)域,這個模型展現(xiàn)出了特別的價值。醫(yī)生可以向它展示醫(yī)學(xué)影像,描述患者癥狀,它能夠提供專業(yè)的分析和建議。雖然它不能替代專業(yè)醫(yī)生的診斷,但可以作為一個強大的輔助工具,幫助醫(yī)生快速查閱相關(guān)信息,提高診斷效率。
對于內(nèi)容創(chuàng)作者來說,Baichuan-Omni-1.5就像是一個萬能助手。創(chuàng)作者可以上傳視頻素材,用語音描述想要的效果,它能夠理解內(nèi)容并生成相應(yīng)的文案、標題或解說詞。這種多模態(tài)理解能力讓內(nèi)容創(chuàng)作變得更加高效和便捷。
在客戶服務(wù)領(lǐng)域,這個模型能夠?qū)崿F(xiàn)真正的智能客服。客戶可以通過拍照、錄音或文字等任何方式描述問題,系統(tǒng)都能準確理解并給出相應(yīng)的解答。這種自然的交互方式讓客戶體驗大大提升。
對于視覺障礙人士,Baichuan-Omni-1.5可能成為一個貼心的"數(shù)字眼睛"。它可以描述周圍環(huán)境,閱讀文檔內(nèi)容,甚至解釋圖片和視頻的內(nèi)容,幫助視覺障礙人士更好地理解和感知世界。
企業(yè)級應(yīng)用方面,這個模型可以處理各種復(fù)雜的業(yè)務(wù)場景。比如在產(chǎn)品設(shè)計評審中,設(shè)計師可以展示設(shè)計稿,用語音描述設(shè)計理念,系統(tǒng)能夠理解設(shè)計意圖并提供專業(yè)建議。在培訓(xùn)場景中,它可以根據(jù)培訓(xùn)材料生成個性化的學(xué)習內(nèi)容,適應(yīng)不同學(xué)員的學(xué)習習慣。
八、技術(shù)挑戰(zhàn)與持續(xù)改進
盡管Baichuan-Omni-1.5取得了顯著成就,研究團隊也坦誠地指出了當前存在的挑戰(zhàn)和改進方向。就像任何突破性技術(shù)一樣,這個模型還有繼續(xù)成長和完善的空間。
音頻理解能力仍有提升空間。雖然模型在語音對話方面表現(xiàn)出色,但在處理復(fù)雜的環(huán)境音效、音樂理解或多人對話場景時還可能遇到困難。研究團隊正在努力擴展音頻理解能力,不僅要讓AI聽懂人說話,還要讓它理解鳥叫、流水聲、車輛噪音等各種環(huán)境聲音。
視頻理解的時長限制也是一個待解決的問題。目前模型最多可以處理32幀的視頻內(nèi)容,這對于短視頻來說足夠,但對于長視頻或電影級內(nèi)容的理解還有局限。研究團隊正在探索如何在保持處理效率的同時擴展視頻理解的時長。
在文字理解方面,雖然模型已經(jīng)表現(xiàn)出色,但在某些專業(yè)領(lǐng)域或特定文化背景的理解上還可以進一步提升。特別是在處理古文、詩詞或特定行業(yè)術(shù)語時,模型的理解能力還有優(yōu)化空間。
跨模態(tài)理解的一致性也是一個持續(xù)優(yōu)化的方向。雖然模型能夠處理多種類型的輸入,但在某些復(fù)雜場景下,不同模態(tài)之間的信息整合還可能出現(xiàn)不一致的情況。研究團隊正在研究如何讓模型在處理復(fù)雜多模態(tài)場景時保持更好的一致性和準確性。
計算效率的優(yōu)化也是一個重要考量。雖然7B參數(shù)的模型相對較小,但要實現(xiàn)實時的多模態(tài)處理仍然需要相當?shù)挠嬎阗Y源。研究團隊正在探索模型壓縮、量化等技術(shù),讓這個強大的AI助手能夠在更多設(shè)備上流暢運行。
說到底,Baichuan-Omni-1.5代表了人工智能發(fā)展的一個重要里程碑。它成功地將視覺、聽覺、語言等人類最重要的感知和交流能力整合到了一個AI系統(tǒng)中,讓機器第一次具備了接近人類的多感官理解和交互能力。這不僅僅是技術(shù)上的突破,更是向著真正智能的人工智能邁出的重要一步。
這項研究的意義遠超技術(shù)本身。它讓我們看到了一個未來的可能性:AI不再是冰冷的工具,而是能夠自然交流、深度理解的智能伙伴。無論是在工作中需要專業(yè)助手,還是在生活中需要貼心幫手,這樣的全能AI都能提供前所未有的幫助。
當然,這項技術(shù)也提醒我們思考AI發(fā)展的方向。隨著AI變得越來越聰明、越來越像人類,我們需要更加謹慎地考慮如何確保這些技術(shù)為人類服務(wù),而不是取代人類。Baichuan-Omni-1.5的成功不是終點,而是一個新起點,它開啟了通向更智能、更自然的人機交互未來的大門。
對于普通人來說,這項技術(shù)的普及可能會徹底改變我們與數(shù)字世界的交互方式。未來,我們可能不再需要學(xué)習復(fù)雜的軟件操作,不再需要在不同的應(yīng)用之間切換,而是可以像與朋友交流一樣自然地與AI對話,讓它幫我們完成各種復(fù)雜的任務(wù)。這樣的未來,或許比我們想象的更近。
Q&A
Q1:Baichuan-Omni-1.5與GPT-4o有什么區(qū)別?
A:Baichuan-Omni-1.5是百川智能開發(fā)的開源全模態(tài)AI模型,能同時處理文字、圖片、視頻和語音,并且在某些測試中超越了GPT-4o-mini。與閉源的GPT-4o不同,Baichuan-Omni-1.5開放了技術(shù)細節(jié)和代碼,讓研究人員可以進一步改進和應(yīng)用。
Q2:普通人現(xiàn)在可以使用Baichuan-Omni-1.5嗎?
A:目前Baichuan-Omni-1.5主要面向研究人員和開發(fā)者開放,普通用戶可以通過GitHub項目頁面了解技術(shù)詳情。由于需要較高的計算資源,大規(guī)模商業(yè)應(yīng)用可能還需要一些時間,但相關(guān)技術(shù)可能會逐步集成到各種產(chǎn)品和服務(wù)中。
Q3:為什么Baichuan-Omni-1.5在醫(yī)療方面表現(xiàn)特別好?
A:這主要得益于其全模態(tài)學(xué)習能力和高質(zhì)量的訓(xùn)練數(shù)據(jù)。模型在學(xué)習過程中接觸了大量醫(yī)療圖像及其文字描述,形成了深入的醫(yī)療知識理解。在OpenMM-Medical測試中達到83.8%準確率,甚至超過了參數(shù)量更大的競爭模型,顯示出在醫(yī)療輔助方面的巨大潛力。