先给结论:能本地部署、完全开源、可纯CPU跑;核心是“听更准、懂更深、聊更自然、还省算力”,这次在国际榜单三项全超GPT‑Realtime‑2。
一、能不能本地部署?
可以,而且很友好。
- Fun‑Realtime‑ASR(语音转文字)- 开源:在 ModelScope、GitHub 开源,可直接下载权重与代码 。
- 部署:支持纯CPU本地跑,老笔记本/办公机即可;也可Docker一键部署。
- 配置参考:4核8GB可跑32路并发;16核32GB可64路 。
- Fun‑Realtime‑AudioChat(语音对话)- 开源:8B参数全开源,Hugging Face/ModelScope可获取 。
- 部署:支持本地服务器/私有化部署,手机、嵌入式端也可跑轻量版。
一句话:ASR可纯CPU本地部署;AudioChat需要一点GPU,但也能本地私有化,数据不出境。
二、到底牛在哪里(为什么能超GPT‑Realtime‑2)
1)听准:词错误率WER 1.8%(全球第一)
- 100个字只错不到2个,强于GPT‑Realtime‑2。
- 覆盖:30+语言、汉语7大方言、20+地方口音(含上海话、粤语、四川话)。
- 噪声强:嘈杂环境幻觉率10.7%(之前78.5%),降了70%。
- 速度:毫秒级流式响应,边说边出字。
2)听懂:语音推理 97.6%(全球第一)
- 不是只转文字,是直接在语音层理解意图、逻辑、情感。
- 能做:意图识别、情感分析、多轮逻辑、语音指令调用工具。
- 架构:端到端(speech→speech),不走传统“ASR→LLM→TTS”流水线,延迟更低、理解更准 。
3)会聊:对话流畅度 全球第一
- 全双工交互:支持边说边听、随时插话打断,更像真人对话。
- 情绪感知:从语气、语速、停顿识别情绪,回复带共情 。
- 双分辨率黑科技:5Hz理解+25Hz生成,GPU省50%,体验不降。
4)落地强:已经大规模在用
- 内部:千问App、高德、钉钉、会议纪要、智能客服。
- 企业:金融、医疗、政务可私有化部署,数据不出域。
- 成本:API 0.00022元/秒,本地部署后边际成本接近0。
三、和我(豆包)的关系
- 我是字节豆包;阿里这次是通义实验室Fun系列,两家是竞品。
- 这次阿里在实时语音+端到端语音对话赛道,实测指标超过GPT‑Realtime‑2,属于国际第一梯队。
- 我也在快速跟进语音能力,但目前在公开榜单上还没到这个位置;你可以把Fun系列理解为:国内语音大模型的顶尖选手之一。
四、一句话总结
能本地部署、全开源、可纯CPU运行;WER 1.8%、语音推理97.6%、对话流畅度三项超GPT‑Realtime‑2;端到端架构+双分辨率,又准又快又省算力,已在阿里全系App落地。