剛剛!阿里發(fā)新模型,幻覺率爆降70%
作者:youzhiboban 來源:平頂山 瀏覽: 【大中小】 發(fā)布時間:2025-09-16評論數(shù):
智東西作者 陳駿達(dá)編輯 李水青
智東西9月15日報道,今天,阿里巴巴通義實驗室推出了FunAudio-ASR端到端語音識別大模型。這款模型通過創(chuàng)新的Context模塊,針對性優(yōu)化了“幻覺”、“串語種”等關(guān)鍵問題,在高噪聲的場景下,幻覺率從78.5%下降至10.7%,下降幅度接近70%。
FunAudio-ASR使用了數(shù)千萬小時的音頻數(shù)據(jù),融合了大語言模型的語義理解能力,從而提升語音識別的上下文一致性與跨語言切換能力。
通義實驗室打造了5大類測試集,重點關(guān)注語音識別在遠(yuǎn)場、嘈雜背景等挑戰(zhàn)性場景下的表現(xiàn),并結(jié)合開源測試集評估了模型的性能。FunAudio-ASR實現(xiàn)了超越Seed-ASR、KimiAudio-8B等業(yè)內(nèi)知名模型的表現(xiàn)。
同時,F(xiàn)unAudio-ASR在實際落地方面也進(jìn)行了全面優(yōu)化,支持低延遲流式識別、跨中英文自然切換以及用戶可自定義的熱詞識別,能夠覆蓋視頻會議、實時字幕、智能終端等多樣化應(yīng)用場景。
FunAudio-ASR提供兩個版本,滿血版由0.7B參數(shù)量的編碼器和7B參數(shù)量的大語言模型組成,追求最高精度;輕量的nano版本由0.2B參數(shù)量的編碼器和0.6B參數(shù)量的大語言模型,平衡效率與精度。目前,F(xiàn)unAudio-ASR已在釘釘?shù)摹癆I聽記”、視頻會議、DingTalk A1硬件等多個場景中應(yīng)用。
FunAudio-ASR已上線阿里云百煉平臺,API定價為0.00022元/秒,轉(zhuǎn)錄一段一小時的音頻大約需要8毛錢。這款模型的技術(shù)報告已經(jīng)發(fā)布,開發(fā)者也可在魔搭社區(qū)體驗其效果。
魔搭社區(qū)體驗:
https://modelscope.cn/studios/iic/FunAudio-ASR
阿里云百煉平臺:
https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1
技術(shù)報告:
https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf
一、幻覺、串語種問題獲針對性優(yōu)化,一手體驗高噪聲環(huán)境識別效果
相比于文本大模型,語音大模型的“幻覺”問題尤為突出。這是因為聲學(xué)特征與文本特征在向量空間上天然存在差異,導(dǎo)致模型在“聽”完音頻后,容易“腦補”出大量不存在的內(nèi)容。
盡管通過訓(xùn)練,可以將將聲學(xué)特征對齊到文本特征空間,但聲學(xué)特征Embedding與真實的文本Embedding仍然存在這一定的差距,這會導(dǎo)致大語言模型在生成文本時發(fā)生幻覺的現(xiàn)象。
▲聲學(xué)特征Embedding與真實的文本Embedding分布差異(圖片來源:https://arxiv.org/pdf/2410.18908)
通義實驗室發(fā)現(xiàn),給語音大模提供必要的上下文,可以減少文本生產(chǎn)時候的幻覺現(xiàn)象。為此,他們設(shè)計了Context增強模塊:該模塊通過CTC解碼器快速生成第一遍解碼文本,并將該結(jié)果作為上下文信息輸入大語言模型,輔助其理解音頻內(nèi)容。
由于CTC結(jié)構(gòu)輕量且為非自回歸模型,幾乎不增加額外推理耗時。
例如,對于這段由AI生成、模仿海盜說話風(fēng)格的音頻,F(xiàn)unAudio-ASR做到了一字不差的識別。
(待插入)
此外,通義實驗室還觀察到幻覺問題在高噪聲場景中更易發(fā)生,因此在訓(xùn)練數(shù)據(jù)中加入了大量仿真數(shù)據(jù)。
為評估模型在高噪聲情況下的表現(xiàn),他們構(gòu)建了一個包含28條易觸發(fā)幻覺音頻的測試集,經(jīng)優(yōu)化后,幻覺率從78.5%下降至10.7%。
智東西在實測中體驗了FunAudio-ASR在嘈雜場景的識別能力。這段音頻是在嘈雜的展會現(xiàn)場錄制的??梢月牭?,模型基本準(zhǔn)確識別了片段中男性說話者的聲音,但在聲音音量驟降后識別錯誤了。
(待插入)
同時,這段音頻中有兩位說話者,F(xiàn)unAudio-ASR在識別兩人同時說話的部分時,遺漏了一些信息。
與OpenAI Whisper Large V3的識別結(jié)果對比,F(xiàn)unAudio-ASR識別出了更多正確的信息。
“串語種”是語音大模型落地中的另一類典型問題,例如,輸入音頻內(nèi)容為英文,模型輸出卻為中文文本。
這是因為文本大模型本身具備翻譯能力,在聲學(xué)特征映射不夠精確時,模型可能在推理過程中“自動啟動”翻譯功能,從而影響語音識別的準(zhǔn)確性。
在FunAudio-ASR的Context增強模塊中,CTC解碼器經(jīng)過高質(zhì)量數(shù)據(jù)訓(xùn)練,本身發(fā)生串語種的概率極低。通過將CTC的第一遍解碼結(jié)果作為提示詞輸入給大語言模型,可有效引導(dǎo)模型聚焦于語音識別任務(wù),緩解“翻譯”行為的發(fā)生。
二、支持術(shù)語定制化識別,召回率提升明顯
在企業(yè)運用語音識別模型時,個性化定制是必不可少的技術(shù)。所謂定制化,是指在識別過程中對特定詞/短語(如人名、地名、品牌、專業(yè)術(shù)語等)施加額外概率偏好,從而顯著提高它們的識別召回率,同時盡量不損傷通用識別準(zhǔn)確率。
當(dāng)前行業(yè)的主流做法是將用戶提供的領(lǐng)域詞,直接作為提示詞輸入大語言模型。該方法雖簡單有效,但隨著詞量增加,干擾也隨之上升,導(dǎo)致召回率下降——即“定制化能力衰減”。
為緩解這一問題,通義實驗室在Context增強結(jié)構(gòu)中引入RAG(檢索增強生成)機制,這一機制的運作方式如下:
(1)構(gòu)建知識庫:將用戶配置的定制詞構(gòu)建成專屬RAG庫;
(2)動態(tài)檢索:依據(jù)CTC第一遍解碼結(jié)果,從RAG庫中抽取相關(guān)詞匯;
(3)精準(zhǔn)注入:僅將相關(guān)詞匯注入大語言模型的提示詞中,避免無關(guān)信息干擾。
該方案在不增加推理復(fù)雜度的前提下,將定制化上文數(shù)量擴(kuò)充到上千個以上,并且保持較高的定制化識別效果。
為驗證模型的定制化效果,通義實驗室在微積分學(xué)、有機化學(xué)、物理學(xué)、哲學(xué)、人名等5個領(lǐng)域,選取了1000個專業(yè)詞匯進(jìn)行測試。FunAudio-ASR在關(guān)鍵詞準(zhǔn)確率上表現(xiàn)超越了支持同類功能的語音識別模型。
例如,采用FunAudio-ASR模型的釘釘“AI聽記”,擁有對互聯(lián)網(wǎng)、科技、家裝、畜牧、汽車等10+領(lǐng)域、200+細(xì)分行業(yè)術(shù)語的識別能力,并支持在企業(yè)授權(quán)前提下,結(jié)合通訊錄、日程等上下文信息進(jìn)行推理優(yōu)化,進(jìn)一步提升結(jié)果可靠性。
三、預(yù)訓(xùn)練使用數(shù)千萬小時數(shù)據(jù),僅用8張A100完成強化學(xué)習(xí)
技術(shù)報告中,通義實驗室闡述了FunAudio-ASR的技術(shù)細(xì)節(jié)。這一模型包含四個核心組件:
(1)音頻編碼器(Audio Encoder):提取語音特征,使用多層Transformer Encoder。
(2)音頻適配器(Audio Adaptor):連接編碼器和LLM,使用兩層Transformer Encoder。
(3)CTC解碼器:用于初步識別假設(shè),支持熱詞定制。
(4)基于大語言模型的解碼器:結(jié)合音頻特征和CTC預(yù)測生成最終輸出。
▲FunAudio-ASR模型架構(gòu)
預(yù)訓(xùn)練階段,F(xiàn)unAudio-ASR使用了數(shù)千萬小時的音頻數(shù)據(jù),包括無標(biāo)注音頻和有標(biāo)注的音頻-文本數(shù)據(jù),數(shù)據(jù)涵蓋AI、生物、電商、教育等多個領(lǐng)域。
預(yù)訓(xùn)練分為自監(jiān)督預(yù)訓(xùn)練和有監(jiān)督預(yù)訓(xùn)練。在自監(jiān)督階段,F(xiàn)unAudio-ASR創(chuàng)新地使用Qwen3的權(quán)重初始化編碼器,加速收斂并提升表示質(zhì)量。
有監(jiān)督預(yù)訓(xùn)練則在編碼器-解碼器架構(gòu)(AED)下進(jìn)行,使編碼器能夠從大規(guī)模標(biāo)注數(shù)據(jù)中學(xué)習(xí)更豐富的聲學(xué)-語言特征,為后續(xù)與大語言模型的整合奠定基礎(chǔ)。
▲FunAudio-ASR預(yù)訓(xùn)練管線
在此基礎(chǔ)上,F(xiàn)unAudio-ASR進(jìn)入有監(jiān)督微調(diào)(SFT)階段,該階段進(jìn)一步分為五個子階段,逐步優(yōu)化不同模塊:
(1)訓(xùn)練適配器以對齊音頻表示與大語言模型的語義空間;
(2)優(yōu)化編碼器和適配器;
(3)使用LoRA微調(diào)大語言模型以防止災(zāi)難性遺忘;
(4)全參數(shù)微調(diào)階段;
(5)引入CTC解碼器用于后續(xù)的熱詞檢索與增強生成(RAG)。
整個SFT過程使用了數(shù)百萬小時的多源數(shù)據(jù),包括人工標(biāo)注語料、偽標(biāo)注數(shù)據(jù)、合成語音和噪聲增強數(shù)據(jù)等,確保了模型在多樣化場景下的泛化能力。
為了進(jìn)一步提升模型對長音頻和上下文信息的理解能力,團(tuán)隊還構(gòu)建了超過5萬小時的上下文增強訓(xùn)練數(shù)據(jù)。
通過提取關(guān)鍵詞、合成相關(guān)上下文并混合無關(guān)語境,模型學(xué)會了在保持高識別精度的同時,有效利用對話歷史信息,顯著提升了在復(fù)雜語境下的表現(xiàn)。
在強化學(xué)習(xí)(RL)階段,團(tuán)隊提出了專為音頻-語言模型設(shè)計的FunRL框架,支持多模塊高效協(xié)同訓(xùn)練。
▲FunRL框架
該框架采用GRPO算法,并設(shè)計了多目標(biāo)獎勵函數(shù),綜合優(yōu)化識別準(zhǔn)確率、關(guān)鍵詞召回、幻覺抑制和語言一致性。模型僅使用8張A100顯卡,在一天內(nèi)完成RL訓(xùn)練。
RL訓(xùn)練數(shù)據(jù)涵蓋硬樣本、長音頻、幻覺樣本、關(guān)鍵詞樣本和常規(guī)ASR數(shù)據(jù),顯著提升了模型在困難場景下的魯棒性和用戶體驗。
最后,F(xiàn)unAudio-ASR還針對實際應(yīng)用需求進(jìn)行了全面優(yōu)化,包括流式識別支持、噪聲魯棒性增強、中英代碼切換處理、熱詞定制和幻覺抑制等。
結(jié)語:生成式AI賦能新一代ASR系統(tǒng),或成智能交互重要入口
基于生成式AI的新一代語音識別模型,正在從“能聽清”走向“能理解”,并在幻覺抑制、跨語種識別、上下文一致性等關(guān)鍵問題上展現(xiàn)出進(jìn)展。
與傳統(tǒng)以聲學(xué)建模與統(tǒng)計學(xué)習(xí)為主的語音識別系統(tǒng)相比,這類模型不僅具備更強的語義理解與任務(wù)適配能力,還能在復(fù)雜噪聲、多說話人、跨領(lǐng)域等場景中保持更高的魯棒性和可控性??梢灶A(yù)見,未來語音識別有望告別單純的“輸入工具”,成為終端智能交互的重要入口。
- {loop type="catelog" row=10}{$vo.title}
欧美日韩免费|
开心婷婷六月丁香|
欧美sM精品调教视频|
日韩不卡在线,日韩成人免费视频|
日本不卡三区|
精品久久久久久无码人妻中文|
性暴力欧美猛交在线播放|
无码国产精品一区二区免费模式|
偷偷好色偷偷要色|
亚洲午夜粉嫩AV|
日老熟女69 - 百度|
亚洲一区在线观看尤物|
少妇熟女 一区|
国产我爱搞在线|
久久婷婷人人澡人人爽人人喊|
午夜理论无码片在线观看免费|
精品无人区一线二线三线区别|
九一传媒精品国产AV|
国产精品原创巨作av女教师|
国产精品丝袜在线播放|
日屄视频在线播放|
久久精品黄aa片一区二区三区
|
成 人影片 aⅴ毛片免费观看|
夜夜躁狠狠躁日日躁|
日本免费痴汉凌辱人妻系列电影|
欧美性色产成人一区二区三区
|
色偷一区国产精品|
天天搞美女视频|
把腿张开老子臊烂你多p视频软件
亚洲av无码乱码国产一区二区
|
午夜精品久久久AV|
亚洲一区二区三区中文字幂|
麻豆精品一区二区|
国产精品丝袜诱惑|
一区二区三区高清日本vr|
性裸交a片一区二区三区|
久久丫精品久久丫|
亚洲人成网站18禁止大app|
黑人强伦姧人妻日韩那庞大的|
久久久久国产一区二区三区|
先锋影音亚洲AV少妇熟女色欲|
日韩亚洲欧美中文高清在线|