阿里语音大模型登顶榜单，获第一

近日，阿里巴巴语音大模型Fun-Realtime-ASR和Fun-Realtime-AudioChat在全球权威AI评测平台Artificial Analysis登顶，超越GPT-Realtime-2等国际顶尖模型，在“听准（词错误率）”、“听懂（语音推理）”和“会聊（对话流畅度）”三项指标上斩获第一。作为新的人机交互入口，阿里语音大模型家族已深度融入千问App、高德地图、钉钉等应用，提供实时语音转文字、智能导航交互及会议纪要生成等服务。

先给结论：能本地部署、完全开源、可纯CPU跑；核心是“听更准、懂更深、聊更自然、还省算力”，这次在国际榜单三项全超GPT‑Realtime‑2。

一、能不能本地部署？

可以，而且很友好。

- Fun‑Realtime‑ASR（语音转文字）- 开源：在 ModelScope、GitHub 开源，可直接下载权重与代码。
- 部署：支持纯CPU本地跑，老笔记本/办公机即可；也可Docker一键部署。
- 配置参考：4核8GB可跑32路并发；16核32GB可64路。
- Fun‑Realtime‑AudioChat（语音对话）- 开源：8B参数全开源，Hugging Face/ModelScope可获取。
- 部署：支持本地服务器/私有化部署，手机、嵌入式端也可跑轻量版。

一句话：ASR可纯CPU本地部署；AudioChat需要一点GPU，但也能本地私有化，数据不出境。

二、到底牛在哪里（为什么能超GPT‑Realtime‑2）

1）听准：词错误率WER 1.8%（全球第一）

- 100个字只错不到2个，强于GPT‑Realtime‑2。
- 覆盖：30+语言、汉语7大方言、20+地方口音（含上海话、粤语、四川话）。
- 噪声强：嘈杂环境幻觉率10.7%（之前78.5%），降了70%。
- 速度：毫秒级流式响应，边说边出字。

2）听懂：语音推理 97.6%（全球第一）

- 不是只转文字，是直接在语音层理解意图、逻辑、情感。
- 能做：意图识别、情感分析、多轮逻辑、语音指令调用工具。
- 架构：端到端（speech→speech），不走传统“ASR→LLM→TTS”流水线，延迟更低、理解更准。

3）会聊：对话流畅度全球第一

- 全双工交互：支持边说边听、随时插话打断，更像真人对话。
- 情绪感知：从语气、语速、停顿识别情绪，回复带共情。
- 双分辨率黑科技：5Hz理解+25Hz生成，GPU省50%，体验不降。

4）落地强：已经大规模在用

- 内部：千问App、高德、钉钉、会议纪要、智能客服。
- 企业：金融、医疗、政务可私有化部署，数据不出域。
- 成本：API 0.00022元/秒，本地部署后边际成本接近0。

三、和我（豆包）的关系

- 我是字节豆包；阿里这次是通义实验室Fun系列，两家是竞品。
- 这次阿里在实时语音+端到端语音对话赛道，实测指标超过GPT‑Realtime‑2，属于国际第一梯队。
- 我也在快速跟进语音能力，但目前在公开榜单上还没到这个位置；你可以把Fun系列理解为：国内语音大模型的顶尖选手之一。

四、一句话总结

能本地部署、全开源、可纯CPU运行；WER 1.8%、语音推理97.6%、对话流畅度三项超GPT‑Realtime‑2；端到端架构+双分辨率，又准又快又省算力，已在阿里全系App落地。