伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

 
  • 當(dāng)前位置: 當(dāng)前位置:首頁>平頂山>剛剛!阿里發(fā)新模型,幻覺率爆降70%正文

    剛剛!阿里發(fā)新模型,幻覺率爆降70%

    作者:youzhiboban 來源:平頂山 瀏覽: 【】 發(fā)布時間:2025-09-16評論數(shù):

    智東西作者 陳駿達(dá)編輯 李水青

    智東西9月15日報道,今天,阿里巴巴通義實驗室推出了FunAudio-ASR端到端語音識別大模型。這款模型通過創(chuàng)新的Context模塊,針對性優(yōu)化了“幻覺”、“串語種”等關(guān)鍵問題,在高噪聲的場景下,幻覺率從78.5%下降至10.7%,下降幅度接近70%。

    FunAudio-ASR使用了數(shù)千萬小時的音頻數(shù)據(jù),融合了大語言模型的語義理解能力,從而提升語音識別的上下文一致性與跨語言切換能力。

    通義實驗室打造了5大類測試集,重點關(guān)注語音識別在遠(yuǎn)場、嘈雜背景等挑戰(zhàn)性場景下的表現(xiàn),并結(jié)合開源測試集評估了模型的性能。FunAudio-ASR實現(xiàn)了超越Seed-ASR、KimiAudio-8B等業(yè)內(nèi)知名模型的表現(xiàn)。

    同時,F(xiàn)unAudio-ASR在實際落地方面也進(jìn)行了全面優(yōu)化,支持低延遲流式識別、跨中英文自然切換以及用戶可自定義的熱詞識別,能夠覆蓋視頻會議、實時字幕、智能終端等多樣化應(yīng)用場景。

    FunAudio-ASR提供兩個版本,滿血版由0.7B參數(shù)量的編碼器和7B參數(shù)量的大語言模型組成,追求最高精度;輕量的nano版本由0.2B參數(shù)量的編碼器和0.6B參數(shù)量的大語言模型,平衡效率與精度。目前,F(xiàn)unAudio-ASR已在釘釘?shù)摹癆I聽記”、視頻會議、DingTalk A1硬件等多個場景中應(yīng)用。

    FunAudio-ASR已上線阿里云百煉平臺,API定價為0.00022元/秒,轉(zhuǎn)錄一段一小時的音頻大約需要8毛錢。這款模型的技術(shù)報告已經(jīng)發(fā)布,開發(fā)者也可在魔搭社區(qū)體驗其效果。

    魔搭社區(qū)體驗:

    https://modelscope.cn/studios/iic/FunAudio-ASR

    阿里云百煉平臺:

    https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1

    技術(shù)報告:

    https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf

    一、幻覺、串語種問題獲針對性優(yōu)化,一手體驗高噪聲環(huán)境識別效果

    相比于文本大模型,語音大模型的“幻覺”問題尤為突出。這是因為聲學(xué)特征與文本特征在向量空間上天然存在差異,導(dǎo)致模型在“聽”完音頻后,容易“腦補”出大量不存在的內(nèi)容。

    盡管通過訓(xùn)練,可以將將聲學(xué)特征對齊到文本特征空間,但聲學(xué)特征Embedding與真實的文本Embedding仍然存在這一定的差距,這會導(dǎo)致大語言模型在生成文本時發(fā)生幻覺的現(xiàn)象。

    ▲聲學(xué)特征Embedding與真實的文本Embedding分布差異(圖片來源:https://arxiv.org/pdf/2410.18908)

    通義實驗室發(fā)現(xiàn),給語音大模提供必要的上下文,可以減少文本生產(chǎn)時候的幻覺現(xiàn)象。為此,他們設(shè)計了Context增強模塊:該模塊通過CTC解碼器快速生成第一遍解碼文本,并將該結(jié)果作為上下文信息輸入大語言模型,輔助其理解音頻內(nèi)容。

    由于CTC結(jié)構(gòu)輕量且為非自回歸模型,幾乎不增加額外推理耗時。

    例如,對于這段由AI生成、模仿海盜說話風(fēng)格的音頻,F(xiàn)unAudio-ASR做到了一字不差的識別。

    (待插入)

    此外,通義實驗室還觀察到幻覺問題在高噪聲場景中更易發(fā)生,因此在訓(xùn)練數(shù)據(jù)中加入了大量仿真數(shù)據(jù)。

    為評估模型在高噪聲情況下的表現(xiàn),他們構(gòu)建了一個包含28條易觸發(fā)幻覺音頻的測試集,經(jīng)優(yōu)化后,幻覺率從78.5%下降至10.7%。

    智東西在實測中體驗了FunAudio-ASR在嘈雜場景的識別能力。這段音頻是在嘈雜的展會現(xiàn)場錄制的??梢月牭?,模型基本準(zhǔn)確識別了片段中男性說話者的聲音,但在聲音音量驟降后識別錯誤了。

    (待插入)

    同時,這段音頻中有兩位說話者,F(xiàn)unAudio-ASR在識別兩人同時說話的部分時,遺漏了一些信息。

    與OpenAI Whisper Large V3的識別結(jié)果對比,F(xiàn)unAudio-ASR識別出了更多正確的信息。

    “串語種”是語音大模型落地中的另一類典型問題,例如,輸入音頻內(nèi)容為英文,模型輸出卻為中文文本。

    這是因為文本大模型本身具備翻譯能力,在聲學(xué)特征映射不夠精確時,模型可能在推理過程中“自動啟動”翻譯功能,從而影響語音識別的準(zhǔn)確性。

    在FunAudio-ASR的Context增強模塊中,CTC解碼器經(jīng)過高質(zhì)量數(shù)據(jù)訓(xùn)練,本身發(fā)生串語種的概率極低。通過將CTC的第一遍解碼結(jié)果作為提示詞輸入給大語言模型,可有效引導(dǎo)模型聚焦于語音識別任務(wù),緩解“翻譯”行為的發(fā)生。

    二、支持術(shù)語定制化識別,召回率提升明顯

    在企業(yè)運用語音識別模型時,個性化定制是必不可少的技術(shù)。所謂定制化,是指在識別過程中對特定詞/短語(如人名、地名、品牌、專業(yè)術(shù)語等)施加額外概率偏好,從而顯著提高它們的識別召回率,同時盡量不損傷通用識別準(zhǔn)確率。

    當(dāng)前行業(yè)的主流做法是將用戶提供的領(lǐng)域詞,直接作為提示詞輸入大語言模型。該方法雖簡單有效,但隨著詞量增加,干擾也隨之上升,導(dǎo)致召回率下降——即“定制化能力衰減”。

    為緩解這一問題,通義實驗室在Context增強結(jié)構(gòu)中引入RAG(檢索增強生成)機制,這一機制的運作方式如下:

    (1)構(gòu)建知識庫:將用戶配置的定制詞構(gòu)建成專屬RAG庫;

    (2)動態(tài)檢索:依據(jù)CTC第一遍解碼結(jié)果,從RAG庫中抽取相關(guān)詞匯;

    (3)精準(zhǔn)注入:僅將相關(guān)詞匯注入大語言模型的提示詞中,避免無關(guān)信息干擾。

    該方案在不增加推理復(fù)雜度的前提下,將定制化上文數(shù)量擴(kuò)充到上千個以上,并且保持較高的定制化識別效果。

    為驗證模型的定制化效果,通義實驗室在微積分學(xué)、有機化學(xué)、物理學(xué)、哲學(xué)、人名等5個領(lǐng)域,選取了1000個專業(yè)詞匯進(jìn)行測試。FunAudio-ASR在關(guān)鍵詞準(zhǔn)確率上表現(xiàn)超越了支持同類功能的語音識別模型。

    例如,采用FunAudio-ASR模型的釘釘“AI聽記”,擁有對互聯(lián)網(wǎng)、科技、家裝、畜牧、汽車等10+領(lǐng)域、200+細(xì)分行業(yè)術(shù)語的識別能力,并支持在企業(yè)授權(quán)前提下,結(jié)合通訊錄、日程等上下文信息進(jìn)行推理優(yōu)化,進(jìn)一步提升結(jié)果可靠性。

    三、預(yù)訓(xùn)練使用數(shù)千萬小時數(shù)據(jù),僅用8張A100完成強化學(xué)習(xí)

    技術(shù)報告中,通義實驗室闡述了FunAudio-ASR的技術(shù)細(xì)節(jié)。這一模型包含四個核心組件:

    (1)音頻編碼器(Audio Encoder):提取語音特征,使用多層Transformer Encoder。

    (2)音頻適配器(Audio Adaptor):連接編碼器和LLM,使用兩層Transformer Encoder。

    (3)CTC解碼器:用于初步識別假設(shè),支持熱詞定制。

    (4)基于大語言模型的解碼器:結(jié)合音頻特征和CTC預(yù)測生成最終輸出。

    ▲FunAudio-ASR模型架構(gòu)

    預(yù)訓(xùn)練階段,F(xiàn)unAudio-ASR使用了數(shù)千萬小時的音頻數(shù)據(jù),包括無標(biāo)注音頻和有標(biāo)注的音頻-文本數(shù)據(jù),數(shù)據(jù)涵蓋AI、生物、電商、教育等多個領(lǐng)域。

    預(yù)訓(xùn)練分為自監(jiān)督預(yù)訓(xùn)練和有監(jiān)督預(yù)訓(xùn)練。在自監(jiān)督階段,F(xiàn)unAudio-ASR創(chuàng)新地使用Qwen3的權(quán)重初始化編碼器,加速收斂并提升表示質(zhì)量。

    有監(jiān)督預(yù)訓(xùn)練則在編碼器-解碼器架構(gòu)(AED)下進(jìn)行,使編碼器能夠從大規(guī)模標(biāo)注數(shù)據(jù)中學(xué)習(xí)更豐富的聲學(xué)-語言特征,為后續(xù)與大語言模型的整合奠定基礎(chǔ)。

    ▲FunAudio-ASR預(yù)訓(xùn)練管線

    在此基礎(chǔ)上,F(xiàn)unAudio-ASR進(jìn)入有監(jiān)督微調(diào)(SFT)階段,該階段進(jìn)一步分為五個子階段,逐步優(yōu)化不同模塊:

    (1)訓(xùn)練適配器以對齊音頻表示與大語言模型的語義空間;

    (2)優(yōu)化編碼器和適配器;

    (3)使用LoRA微調(diào)大語言模型以防止災(zāi)難性遺忘;

    (4)全參數(shù)微調(diào)階段;

    (5)引入CTC解碼器用于后續(xù)的熱詞檢索與增強生成(RAG)。

    整個SFT過程使用了數(shù)百萬小時的多源數(shù)據(jù),包括人工標(biāo)注語料、偽標(biāo)注數(shù)據(jù)、合成語音和噪聲增強數(shù)據(jù)等,確保了模型在多樣化場景下的泛化能力。

    為了進(jìn)一步提升模型對長音頻和上下文信息的理解能力,團(tuán)隊還構(gòu)建了超過5萬小時的上下文增強訓(xùn)練數(shù)據(jù)。

    通過提取關(guān)鍵詞、合成相關(guān)上下文并混合無關(guān)語境,模型學(xué)會了在保持高識別精度的同時,有效利用對話歷史信息,顯著提升了在復(fù)雜語境下的表現(xiàn)。

    在強化學(xué)習(xí)(RL)階段,團(tuán)隊提出了專為音頻-語言模型設(shè)計的FunRL框架,支持多模塊高效協(xié)同訓(xùn)練。

    ▲FunRL框架

    該框架采用GRPO算法,并設(shè)計了多目標(biāo)獎勵函數(shù),綜合優(yōu)化識別準(zhǔn)確率、關(guān)鍵詞召回、幻覺抑制和語言一致性。模型僅使用8張A100顯卡,在一天內(nèi)完成RL訓(xùn)練。

    RL訓(xùn)練數(shù)據(jù)涵蓋硬樣本、長音頻、幻覺樣本、關(guān)鍵詞樣本和常規(guī)ASR數(shù)據(jù),顯著提升了模型在困難場景下的魯棒性和用戶體驗。

    最后,F(xiàn)unAudio-ASR還針對實際應(yīng)用需求進(jìn)行了全面優(yōu)化,包括流式識別支持、噪聲魯棒性增強、中英代碼切換處理、熱詞定制和幻覺抑制等。

    結(jié)語:生成式AI賦能新一代ASR系統(tǒng),或成智能交互重要入口

    基于生成式AI的新一代語音識別模型,正在從“能聽清”走向“能理解”,并在幻覺抑制、跨語種識別、上下文一致性等關(guān)鍵問題上展現(xiàn)出進(jìn)展。

    與傳統(tǒng)以聲學(xué)建模與統(tǒng)計學(xué)習(xí)為主的語音識別系統(tǒng)相比,這類模型不僅具備更強的語義理解與任務(wù)適配能力,還能在復(fù)雜噪聲、多說話人、跨領(lǐng)域等場景中保持更高的魯棒性和可控性??梢灶A(yù)見,未來語音識別有望告別單純的“輸入工具”,成為終端智能交互的重要入口。