阿里端出最强语音模型!英文rap精准转文字,准确率干翻全球
作者:弓雖_IHZM 來源:清遠(yuǎn) 瀏覽: 【大中小】 發(fā)布時(shí)間:2025-09-14評論數(shù):
▲头图由AI生成
智东西作者 程茜编辑 心缘
智东日报道,昨天,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练,支种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。
在ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR。
具体来看,该模型支持中文、英语、法语、德语个语种,识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段,其是基于海量多模态数据以及千万小时规模的ASR数据构建的语音识别服务。
此外,用户还可定制ASR结果,通过在上传音频时添加关键信息术语、音频发生背景等上下文信息,就能使识别结果匹配这些已有信息。
下面是官方放出的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息,包括关键词列表、这场游戏的背景等。因此识别结果中,即使电竞解说人员的语速非常快也没有影响识别游戏专业术语的效果。
https://oss.zhidx.com/fec737df52316dd65dba06796cdb1eb9/68befd80/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav
ModelScope地址:
https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
Hugging Face地址:
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百炼API调用地址:
https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031
一、能识别游戏解说、英文说唱,连续多种噪音抗干扰拉满
官方放出𱅁个演示示例,包含多种类型噪声、多语种快速切换、方言、专业名词的音频识别难题。
第一个是夹杂手机铃声、车铃声、音乐声、水声、雷声等多种类型的连续噪音,其中还会有不同人物之间切换对话,Qwen3-ASR-Flash在多人同时说话或者说话间隔非常短的情况下也对语音进行了准确识别,没有受到噪声干扰。
https://oss.zhidx.com/383cc163e20957eddc21e7e86a4b3f07/68befd80/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav
第二个是英文说唱。英文说唱的特点是语速快、歌词中单词连读情况多,识别结果中很多歌词中的单词连读、长难句识别准确,且没有受到背景音乐的干扰。
https://oss.zhidx.com/b2535c852c6391fdc4b1c8e71e963b26/68befd80/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav
第三个是方言的识别。这一场景中,音频中主人公正在开车,有主人公的方言和智能语音客服的普通话穿插出现,音频中智能语音客服将“纠正”错误识别成了“96”,Qwen3-ASR-Flash进行了准确识别。
https://oss.zhidx.com/16a9a5026b271ec29d2b519f5384b210/68befd80/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav
第四个是多语种句子切换,7秒的音频里有英语、日语种语言,识别结果都进行了一一呈现。
https://oss.zhidx.com/05e13dcd6a7ff02eddf2fc36c488c698/68befd80/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav
最后是化学课程的一段音频。识别结果中酯基、酸、醛、氨等化学名词,以及音频中人物的语气词识别并未出错。
https://oss.zhidx.com/5f39d32577be13371754b8f8187ad8d2/68befd80/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav
二、歌词识别错误率低𱆔%,可定制语音识别结果
性能表现,Qwen3-ASR-Flash的自动语音识别错误率,在中文、英文、多语言自动语音识别、歌词、关键信息识别的错误率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。
在歌词识别中,Qwen3-ASR-Flash支持清唱和带毕竟音乐的整首歌识别,研究人员实测识别错误率低𱆔%。
该模型支持普通话以及四川话、闽南语、吴语、粤语等方言,英式、美式及多地区口音的英语,其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。
如果想要获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,且用户无需对上下文信息进行预处理。
其支持的格式包括但不限于以下一种,简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到,模型对无关上下文的负面影响具有高度鲁棒性。
基于此,Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。
结语:后续将迭代通用语音识别精度
一直以来,复杂声学环境、多样化语音特征、专业术语等都是语音识别的最大难点。此次为了保证用户对输出结果的可控,阿里研究人员上线了背景文本上传功能,使得这一生成结果能更加符合用户的预期。
下一步,研究人员将提升Qwen3-ASR-Flash的通用识别精度,进一步降低普通用户的使用门槛。
- {loop type="catelog" row=10}{$vo.title}
午夜理论片福利在线观看|
色噜噜AⅤ熟女人|
四虎永久在线精品免费一区二区|
美少妇被又粗又大猛烈进入在线视频|
99久久精品久久久久久婷婷|
人妻 av影院|
国产一区二区在线视频|
少妇被猛烈进入|
国产成人a级毛片|
一精品久久久久久久久|
邻居少妇张开双腿让我爽一夜|
大屁股无码精品|
99爱视频在线观看|
亚洲性夜夜摸人人天天|
欧美女人czxxxxx|
久久夜色精品国产亚av|
你懂的在线播放|
精品无码人妻一区二|
亚洲午夜成人精品电影在线观看|
换着玩人妻HD中文字幕|
国产成人精品三级麻豆|
天堂无码毛片毛片毛片|
国语自产精品视频在线看|
久久96乱日屁|
亚洲精品无码不卡久久久久|
夜夜艹狠狠艹|
wwww国产熟女|
国产精品老熟女视频一区二区|
区二区三区玖玖玖|
天堂а√在线最新版中文在线|
第一次挺进苏雨瑶的身体|
精品国产一区二区三区不卡蜜臂|
囗交口爆国产在线视频|
国产精品农村妇女AAAA|
国产av八区|
日日摸夜夜添无码AVA片|
久久天天躁夜夜躁狠狠综合|
欧美激性欧美激情在线五月|
久久中文精品无码中文字幕下载
|
亚洲自偷自偷在线成人网址|
国产熟睡乱子伦视频网站|