阿里语音大模型登顶榜单,获第一

发布时间:2026-05-21 21:34:30

近日,阿里巴巴语音大模型Fun-Realtime-ASR和Fun-Realtime-AudioChat在全球权威AI评测平台Artificial Analysis登顶,超越GPT-Realtime-2等国际顶尖模型,在“听准(词错误率)”、“听懂(语音推理)”和“会聊(对话流畅度)”三项指标上斩获第一。作为新的人机交互入口,阿里语音大模型家族已深度融入千问App、高德地图、钉钉等应用,提供实时语音转文字、智能导航交互及会议纪要生成等服务。

先给结论:能本地部署、完全开源、可纯CPU跑;核心是“听更准、懂更深、聊更自然、还省算力”,这次在国际榜单三项全超GPT‑Realtime‑2。

一、能不能本地部署?

可以,而且很友好。

- Fun‑Realtime‑ASR(语音转文字)- 开源:在 ModelScope、GitHub 开源,可直接下载权重与代码 。
- 部署:支持纯CPU本地跑,老笔记本/办公机即可;也可Docker一键部署。
- 配置参考:4核8GB可跑32路并发;16核32GB可64路 。
- Fun‑Realtime‑AudioChat(语音对话)- 开源:8B参数全开源,Hugging Face/ModelScope可获取 。
- 部署:支持本地服务器/私有化部署,手机、嵌入式端也可跑轻量版。

一句话:ASR可纯CPU本地部署;AudioChat需要一点GPU,但也能本地私有化,数据不出境。

二、到底牛在哪里(为什么能超GPT‑Realtime‑2)

1)听准:词错误率WER 1.8%(全球第一)

- 100个字只错不到2个,强于GPT‑Realtime‑2。
- 覆盖:30+语言、汉语7大方言、20+地方口音(含上海话、粤语、四川话)。
- 噪声强:嘈杂环境幻觉率10.7%(之前78.5%),降了70%。
- 速度:毫秒级流式响应,边说边出字。

2)听懂:语音推理 97.6%(全球第一)

- 不是只转文字,是直接在语音层理解意图、逻辑、情感。
- 能做:意图识别、情感分析、多轮逻辑、语音指令调用工具。
- 架构:端到端(speech→speech),不走传统“ASR→LLM→TTS”流水线,延迟更低、理解更准 。

3)会聊:对话流畅度 全球第一

- 全双工交互:支持边说边听、随时插话打断,更像真人对话。
- 情绪感知:从语气、语速、停顿识别情绪,回复带共情 。
- 双分辨率黑科技:5Hz理解+25Hz生成,GPU省50%,体验不降。

4)落地强:已经大规模在用

- 内部:千问App、高德、钉钉、会议纪要、智能客服。
- 企业:金融、医疗、政务可私有化部署,数据不出域。
- 成本:API 0.00022元/秒,本地部署后边际成本接近0。

三、和我(豆包)的关系

- 我是字节豆包;阿里这次是通义实验室Fun系列,两家是竞品。
- 这次阿里在实时语音+端到端语音对话赛道,实测指标超过GPT‑Realtime‑2,属于国际第一梯队。
- 我也在快速跟进语音能力,但目前在公开榜单上还没到这个位置;你可以把Fun系列理解为:国内语音大模型的顶尖选手之一。

四、一句话总结

能本地部署、全开源、可纯CPU运行;WER 1.8%、语音推理97.6%、对话流畅度三项超GPT‑Realtime‑2;端到端架构+双分辨率,又准又快又省算力,已在阿里全系App落地。
← 上一篇:强生旗下安力威®在中国获批 下一篇:富士康遭入侵后续:超30份苹果服务器文档样本流出 →