OpenAI重磅升级三款实时语音模型

发布时间:2026-05-09 11:48:20

横空出世,AI交互进入“实时操作系统”时代

OpenAI近日宣布对其实时API接口进行了一次里程碑式的重大升级,一次性推出了三款尖端高阶语音智能模型,旨在全面革新AI在实时听觉、口语交互、翻译和转录等领域的表现,极大地降低了企业应用智能语音技术的技术门槛。


本次升级的核心亮点包括:

1. **GPT-Realtime-2:** 该模型集成了GPT-5级别的推理能力,显著提升了人声的仿真度。
它不仅能更精准地理解和处理复杂的自然语言指令,还能实现更加流畅、智能的连续对话交互体验。

2. **实时翻译模型:** 这一模块实现了跨语言沟通的革命。
它支持超过70种语言的语音识别和13种语言的语音输出,能够同步人声语速完成实时翻译,确保了无卡顿的跨语言交流。

3. **Whisper实时转写模型:** 配套推出的实时转录模型,能够在人机互动过程中同步将语音转化为文字,为会议记录、实时笔录等高频办公场景提供了强力支持。


OpenAI强调,此次迭代的意义在于将AI音频交互从基础问答层面,提升到了一个综合性的“智能语音操作系统”的高度。
它集聆听、思考、翻译、转写与实时响应于一体,使得AI的实用性和应用场景的广度得到了前所未有的增强。
← 上一篇:黄仁勋的“零”分成绩单。 下一篇:百度AI“判刑律师”误导网民 →