這項由南京大學、騰訊優(yōu)圖實驗室、廈門大學等多家機構聯(lián)合完成的研究發(fā)表于2025年1月21日,論文題為《VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction》。有興趣深入了解的讀者可以通過GitHub開源項目(https://github.com/VITA-MLLM/VITA)獲取完整的代碼和研究資料,該項目目前已獲得超過2000個星標。
現(xiàn)在,請你閉上眼睛,設想這樣一個場景:你正在廚房里準備晚餐,雙手忙著切菜,突然想要查詢某道菜的做法。你只需要對著手機說話,同時用手機攝像頭對準你面前的食材,一個智能助手就能立刻理解你在做什么,然后用清晰的語音告訴你接下來該怎么做。這不是科幻電影,而是VITA-1.5這個新系統(tǒng)正在實現(xiàn)的能力。
過去,計算機要想同時處理視覺信息和語音對話是極其困難的。就像一個人要同時用左手畫畫、右手彈琴,還要唱歌一樣,每項技能都需要大腦的不同區(qū)域協(xié)調工作。傳統(tǒng)的人工智能系統(tǒng)通常只能專注于一種能力,要么是看圖識別,要么是語音對話,很少能像人類一樣自然地結合這些技能。
VITA-1.5的突破性在于它能夠像人類一樣,同時運用視覺和聽覺進行自然對話。這個系統(tǒng)不需要先把語音轉成文字,再把回答轉成語音這樣繁瑣的步驟,而是能夠直接進行語音到語音的交流。這就好比過去的翻譯需要先把中文寫在紙上,翻譯成英文,再讀出來;而現(xiàn)在可以直接進行同聲傳譯一樣流暢。
研究團隊面臨的最大挑戰(zhàn)是如何讓一個系統(tǒng)同時掌握看圖和說話這兩種完全不同的能力。視覺信息就像是一幅靜態(tài)的畫,包含空間和細節(jié)信息;而語音信息則像是流動的音樂,包含時間序列和韻律變化。這兩種信息的處理方式截然不同,強行讓系統(tǒng)同時學習往往會造成"顧此失彼"的問題,就像讓一個學生同時學習數(shù)學和音樂,可能兩樣都學不好。
一、循序漸進的三階段訓練策略:從基礎到精通的學習之路
VITA-1.5的成功秘訣在于它采用了一種非常聰明的分階段訓練方法,就像培養(yǎng)一個全能型人才一樣,先讓他掌握基礎技能,再逐步添加新能力。
第一階段是建立視覺理解的基礎。研究團隊首先讓系統(tǒng)學會"看懂"圖片和視頻。這個過程就像教一個孩子認識世界一樣,從簡單的物體識別開始,逐漸學會理解復雜的場景。系統(tǒng)使用了一個名為InternViT-300M的視覺編碼器作為"眼睛",能夠將448×448像素的圖像轉換成256個視覺標記。對于高分辨率圖像,系統(tǒng)還采用了動態(tài)分塊策略,就像用放大鏡仔細觀察圖片的每個細節(jié)一樣。
在處理視頻時,VITA-1.5采用了智能的幀采樣策略。如果視頻短于4秒,系統(tǒng)會均勻采樣4幀;如果視頻長度在4-16秒之間,則每秒采樣一幀;對于超過16秒的長視頻,系統(tǒng)會均勻采樣16幀。這種策略確保了系統(tǒng)既能捕捉到視頻的關鍵信息,又不會因為處理過多幀而影響效率。
這個階段分為三個小步驟。首先是視覺對齊訓練,系統(tǒng)學習如何將視覺特征與語言模型連接起來,只有視覺適配器是可訓練的,其他模塊保持凍結狀態(tài)。接著是視覺理解訓練,系統(tǒng)學會生成圖像描述,這時視覺模塊和語言模型都參與訓練。最后是視覺指令調優(yōu),系統(tǒng)學會回答關于圖像的各種問題,同時保留部分描述數(shù)據(jù)以增加訓練的多樣性。
第二階段引入了音頻理解能力。就像一個已經(jīng)會看的孩子開始學會聽和理解語音一樣。系統(tǒng)的音頻編碼模塊包含多個下采樣卷積層和24個Transformer塊,擁有約3.5億個參數(shù),輸出幀率為12.5Hz。輸入采用梅爾濾波器組特征,窗口大小為25毫秒,位移為10毫秒。
音頻對齊訓練使用了11萬小時的內部語音轉錄配對數(shù)據(jù),覆蓋中英文兩種語言。研究團隊采用兩步法:首先訓練語音編碼器,使用常見語音識別系統(tǒng)的連接時序分類損失函數(shù)來預測轉錄文本;然后訓練語音適配器,將音頻編碼器與語言模型集成,同時引入特殊的可訓練輸入標記來指導語音理解過程。
音頻指令調優(yōu)階段,系統(tǒng)學會處理語音問答任務。研究團隊采樣了4%的描述數(shù)據(jù)和20%的問答數(shù)據(jù),約一半的文本問題被隨機替換為相應的語音版本。系統(tǒng)還添加了分類頭來區(qū)分輸入是來自語音還是文本,使模型能夠更準確地處理不同類型的輸入。
第三階段是最關鍵的音頻輸出訓練。前兩個階段讓系統(tǒng)學會了"看"和"聽",現(xiàn)在要教它"說話"。系統(tǒng)使用TiCodec作為編解碼模型,定制了單一碼本設計,碼本大小為1024,簡化了推理階段的解碼過程。編解碼模型負責將連續(xù)語音信號編碼為離散語音標記,頻率為40Hz,同時具備將這些標記解碼回采樣率為24000Hz語音信號的能力。
為了讓系統(tǒng)能夠輸出語音,研究團隊在文本標記后添加了兩個語音解碼器:非自回歸語音解碼器負責處理全局文本標記并建模語義特征,目標是生成語音標記的初始分布;自回歸語音解碼器則基于非自回歸解碼器產(chǎn)生的信息逐步生成更高質量的語音標記。這種設計就像先有一個大概的輪廓,然后逐步細化成清晰的畫面一樣。
編解碼訓練使用3000小時的文本-語音配對數(shù)據(jù)訓練編解碼模型,而解碼器訓練階段,文本通過分詞器和語言模型的嵌入層獲得嵌入向量,語音通過編解碼模型編碼器獲得語音標記。文本嵌入向量被發(fā)送到非自回歸語音解碼器獲得全局語義特征,然后這些特征被送到自回歸語音解碼器預測相應的語音標記。重要的是,在這個階段語言模型保持凍結狀態(tài),因此不會影響多模態(tài)性能。
二、強大的多模態(tài)架構設計:統(tǒng)一而高效的信息處理中心
VITA-1.5的整體架構就像一個高度協(xié)調的管弦樂團,每個組件都有自己的職責,但能夠完美地協(xié)同工作。輸入端采用了"多模態(tài)編碼器-適配器-語言模型"的配置,將視覺和音頻變換器與多層連接器結合,目標是增強對視覺、語言和音頻的統(tǒng)一理解。
在視覺處理方面,系統(tǒng)的"眼睛"采用InternViT-300M作為視覺編碼器,輸入圖像尺寸為448×448像素,每張圖像生成256個視覺標記。對于需要精細處理的高分辨率圖像,系統(tǒng)采用動態(tài)分塊策略來捕獲局部細節(jié),提高圖像理解的準確性。視頻被視為特殊的多圖像輸入進行處理。為避免產(chǎn)生過多可能阻礙處理效率的視覺標記,視頻幀不應用動態(tài)分塊處理。視覺適配器采用兩層多層感知機結構,將視覺特征映射為適合語言模型理解的視覺標記。
音頻處理模塊的設計同樣精巧。語音編碼器由多個4倍下采樣卷積層和24個Transformer塊組成,隱藏層大小為1024。下采樣層幫助降低音頻特征的幀率,提高語言模型的處理速度。語音適配器包含多個2倍下采樣的卷積層。整個音頻編碼模塊約有3.5億參數(shù),輸出幀率為12.5Hz,確保了高效的音頻處理能力。
語音解碼器部分采用了創(chuàng)新的雙重解碼設計。TiCodec被用作編解碼模型,定制了單一碼本設計,碼本大小為1024,這種設計簡化了推理階段的解碼過程。編解碼模型能夠將連續(xù)語音信號編碼為40Hz頻率的離散語音標記,同時具備將這些標記解碼回24000Hz采樣率語音信號的能力。
當前的語言模型只能輸出文本標記,要獲得語音生成能力需要讓語言模型能夠輸出語音標記。研究團隊在文本標記后添加了兩個語音解碼器:非自回歸語音解碼器全局處理文本標記并建模語義特征,目標是生成語音標記的初始分布;自回歸語音解碼器基于非自回歸解碼器產(chǎn)生的語音信息逐步生成更高質量的語音標記。最終的語音標記序列通過編解碼模型的語音解碼器轉換為連續(xù)語音信號流。兩個解碼器都采用4層LLaMA解碼器結構,隱藏層大小為896,參數(shù)量約為1.2億。
三、豐富多樣的訓練數(shù)據(jù):涵蓋多語言多場景的學習素材
VITA-1.5的訓練就像培養(yǎng)一個博學的學者,需要大量豐富多樣的學習材料。整個訓練數(shù)據(jù)集包含約2.21萬個問題,涵蓋中英文兩種語言,確保系統(tǒng)能夠處理不同語言環(huán)境下的多模態(tài)交互。
圖像描述數(shù)據(jù)是系統(tǒng)學習視覺理解的基礎。ShareGPT4V提供了9.95萬個英文圖像描述問題,ALLaVA-Caption貢獻了69.74萬個英文描述,SharedGPT4o-Image增加了5.55萬個英文樣本,還有59.37萬個中文合成數(shù)據(jù)。這些數(shù)據(jù)教會系統(tǒng)如何用自然語言描述圖像內容,就像訓練一個解說員學會生動地描述所看到的場景。
圖像問答數(shù)據(jù)進一步提升了系統(tǒng)的推理能力。LLaVA-150K提供了21.84萬個中文問答對,LLaVA-Mixture-sample貢獻了187.21萬個英文樣本,LVIS-Instruct增加了93.94萬個英文問答,ScienceQA提供了1.27萬個英文科學問題,ChatQA貢獻了7390個英文對話問答。這些數(shù)據(jù)涵蓋了從一般圖像問答到數(shù)學推理的各種任務,讓系統(tǒng)學會在不同情境下進行視覺推理。
文字識別和圖表理解數(shù)據(jù)幫助系統(tǒng)掌握更精細的視覺技能。Anyword-3M提供了170.93萬個中文文字識別樣本,ICDAR2019-LSVT貢獻了36.63萬個中文樣本,UReader和SynDOG分別提供了英文文字識別訓練數(shù)據(jù)。這些數(shù)據(jù)讓系統(tǒng)能夠識別圖像中的文字內容,理解圖表和文檔,就像訓練一個既能看圖又能讀字的助手。
視頻理解數(shù)據(jù)讓系統(tǒng)學會處理動態(tài)視覺信息。ShareGemini提供了20.57萬個中文視頻描述樣本,合成數(shù)據(jù)貢獻了56.94萬個中英文視頻樣本和433.63萬個中英文視頻問答對。這些數(shù)據(jù)教會系統(tǒng)理解視頻中的動作、場景變化和時間關系。
純文本數(shù)據(jù)確保系統(tǒng)保持強大的語言理解和生成能力。157.42萬個中英文合成文本問答對幫助系統(tǒng)在處理多模態(tài)信息的同時,不丟失原有的文本處理能力。
除了這些圖像和視頻數(shù)據(jù),系統(tǒng)還使用了11萬小時的內部語音轉錄配對數(shù)據(jù)進行音頻編碼器訓練和音頻編碼器與語言模型的對齊,涵蓋中英文兩種語言。另外,3000小時由文本到語音系統(tǒng)生成的文本-語音配對數(shù)據(jù)用于訓練語音解碼器,確保系統(tǒng)能夠生成自然流暢的語音回復。
四、全面的性能評估:與頂級模型的正面較量
為了驗證VITA-1.5的實際能力,研究團隊進行了全方位的性能測試,就像給一個全能運動員安排各種比賽項目一樣。
在圖像理解能力測試中,VITA-1.5與多個開源和閉源模型進行了對比。測試采用了九個權威評估基準,包括MME、MMBench、MMStar、MMMU、MathVista、HallusionBench、AI2D、OCRBench和MMVet。這些基準覆蓋了通用多模態(tài)能力、數(shù)學推理、幻覺檢測、圖表理解和文字識別等多個方面。
結果顯示,VITA-1.5在完成三個階段訓練后,平均得分達到66.8,表現(xiàn)可比肩領先的圖像視頻多模態(tài)大語言模型。特別值得注意的是,在完成第二階段(音頻輸入調優(yōu))和第三階段(音頻輸出調優(yōu))訓練后,VITA-1.5幾乎完全保持了第一階段(視覺語言訓練)的原始視覺語言能力,這證明了分階段訓練策略的有效性。
與閉源模型相比,VITA-1.5的表現(xiàn)同樣令人印象深刻。在某些指標上,它甚至超越了GPT-4V和GPT-4o-mini等知名模型。例如,在OCRBench測試中,VITA-1.5得分732,超過了GPT-4V的678分。在MME綜合評估中,VITA-1.5獲得2352分,表現(xiàn)穩(wěn)定可靠。
視頻理解能力測試采用了Video-MME、MVBench和TempCompass等基準。盡管VITA-1.5在某些視頻理解任務上仍落后于GPT-4o和Gemini-1.5-Pro等頂級閉源模型,但它與許多開源模型的表現(xiàn)相當,顯示出良好的視頻處理能力。在TempCompass基準上,VITA-1.5得分66.7,接近InternLM-XComposer-2.5的62.1分和MiniCPM-V-2.6的66.3分。
語音識別能力的測試結果尤其令人鼓舞。在中文語音識別方面,VITA-1.5在aishell-1測試集上的字符錯誤率僅為2.2%,在test net上為8.4%,在test meeting上為10.0%,均顯著優(yōu)于VITA-1.0的表現(xiàn)。在英文語音識別方面,系統(tǒng)在dev-clean上的詞錯誤率為3.3%,在dev-other上為7.2%,在test-clean上為3.4%,在test-other上為7.5%,表現(xiàn)同樣出色。
這些測試結果不僅超越了專門的語音模型如Wav2vec2-base,還優(yōu)于其他多模態(tài)模型如Mini-Omini2和Freeze-Omini。這證明VITA-1.5成功地整合了先進的語音能力,能夠支持高質量的多模態(tài)交互。
五、技術創(chuàng)新與實際應用:從實驗室到現(xiàn)實生活的跨越
VITA-1.5的技術創(chuàng)新不僅體現(xiàn)在性能數(shù)據(jù)上,更重要的是它為實際應用開辟了新的可能性。這個系統(tǒng)實現(xiàn)了真正的端到端語音到語音對話,無需依賴外部的語音識別或文本轉語音模塊,這大大降低了延遲,提高了交互的自然性。
在實際使用場景中,VITA-1.5展現(xiàn)出了接近實時的交互能力。用戶可以打開攝像頭,進行流暢的語音對話,系統(tǒng)能夠同時理解視覺信息和語音指令,然后直接用語音回應。這種能力在多個領域具有巨大的應用潛力。
在教育領域,VITA-1.5可以作為智能輔導助手,學生可以通過語音提問,同時展示作業(yè)或學習材料,系統(tǒng)能夠理解具體問題并提供針對性的語音解答。在醫(yī)療保健領域,它可以協(xié)助醫(yī)生進行病例分析,通過語音描述癥狀的同時展示影像資料,獲得初步的診斷建議。
在客戶服務方面,VITA-1.5可以提供更加自然和高效的服務體驗??蛻艨梢酝ㄟ^語音描述問題,同時展示相關產(chǎn)品或文檔,系統(tǒng)能夠準確理解情況并提供相應的解決方案。在無障礙技術領域,這個系統(tǒng)可以為視覺或聽覺障礙人士提供更好的信息獲取和交流方式。
研究團隊已經(jīng)將VITA-1.5的訓練和推理代碼在GitHub上開源,項目地址為https://github.com/VITA-MLLM/VITA,目前已獲得超過2000個星標,這表明了學術界和工業(yè)界對這項技術的高度關注。開源發(fā)布降低了技術門檻,使更多研究者和開發(fā)者能夠基于VITA-1.5進行進一步的研究和應用開發(fā)。
與傳統(tǒng)的多模態(tài)系統(tǒng)相比,VITA-1.5的主要優(yōu)勢在于其統(tǒng)一的端到端架構。傳統(tǒng)系統(tǒng)通常需要多個獨立模塊的協(xié)作,例如先用自動語音識別將語音轉為文本,然后用文本到語音系統(tǒng)生成回復語音,這種流水線式的處理方式不僅增加了延遲,還可能在各個環(huán)節(jié)引入錯誤。VITA-1.5通過統(tǒng)一的訓練策略,讓所有模態(tài)在同一個框架下協(xié)同工作,實現(xiàn)了更加自然和高效的交互。
系統(tǒng)的另一個重要特點是其可擴展性。三階段訓練策略不僅解決了多模態(tài)沖突問題,還為未來集成更多模態(tài)(如觸覺、嗅覺等)提供了框架參考。這種漸進式的能力擴展方法可能成為構建更加全面的人工智能系統(tǒng)的標準范式。
從技術發(fā)展的角度來看,VITA-1.5代表了多模態(tài)人工智能從專業(yè)工具向日常助手轉變的重要一步。它展示了如何通過精心設計的訓練策略和架構,讓人工智能系統(tǒng)具備更加接近人類的感知和交流能力。這不僅推進了人工智能技術的發(fā)展,也為構建更加智能和便民的數(shù)字社會提供了重要支撐。
說到底,VITA-1.5的出現(xiàn)標志著我們正在進入一個全新的人機交互時代。過去,我們需要學習如何與計算機"對話",使用特定的命令和界面;現(xiàn)在,計算機開始學習如何像人一樣與我們交流,能看能聽能說,理解我們的意圖和需求。這種轉變不僅會改變我們使用技術的方式,更會重新定義人與機器之間的關系。
雖然VITA-1.5目前在某些復雜的視頻理解任務上仍有提升空間,但它已經(jīng)展現(xiàn)出了巨大的潛力和價值。隨著技術的不斷完善和應用場景的不斷擴展,我們有理由相信,這樣的多模態(tài)智能系統(tǒng)將在不久的將來成為我們日常生活中不可或缺的助手,讓人工智能真正服務于人類的美好生活。
對于那些關注人工智能發(fā)展趨勢的讀者,VITA-1.5的成功經(jīng)驗提供了寶貴的啟示:技術突破往往不是一蹴而就的,而是需要通過精心設計的策略和持續(xù)的努力來實現(xiàn)。對于想要了解更多技術細節(jié)的研究者和開發(fā)者,可以通過訪問GitHub項目頁面(https://github.com/VITA-MLLM/VITA)獲取完整的代碼和文檔資源。
Q&A
Q1:VITA-1.5和其他AI語音助手有什么區(qū)別?
A:VITA-1.5最大的區(qū)別是能同時處理視覺和語音信息進行實時對話。傳統(tǒng)AI助手要么只能聽語音,要么只能看圖片,而VITA-1.5可以一邊看攝像頭畫面一邊進行語音對話,就像真人一樣同時用眼睛和耳朵理解你的需求,然后直接用語音回答,不需要先轉成文字再轉成語音的中間步驟。
Q2:普通人什么時候能用上VITA-1.5?
A:目前VITA-1.5還主要是研究階段的技術,研究團隊已經(jīng)在GitHub上開源了代碼,但普通用戶直接使用還需要一定的技術門檻。不過隨著技術成熟和產(chǎn)業(yè)化推進,預計未來1-2年內可能會有基于這種技術的商業(yè)產(chǎn)品出現(xiàn),讓普通人也能體驗到這種多模態(tài)AI交互。
Q3:VITA-1.5的語音對話質量怎么樣?
A:根據(jù)測試結果,VITA-1.5在中英文語音識別方面表現(xiàn)出色,中文字符錯誤率低至2.2%,英文詞錯誤率為3.3-7.5%,超越了許多專門的語音識別系統(tǒng)。它能夠進行接近實時的語音交互,語音質量自然流暢,在保持強大視覺理解能力的同時實現(xiàn)了高質量的語音對話功能。