定义下一代人机交互范式？Open AI首发的语音Agent有何深意？

人机交互 open AI 语音Agent

数据猿 | 2025-03-26 16:47

【数据猿导读】 3月21日凌晨1点，OpenAI进行了技术直播，并发布了三款全新语音模型，专用于开发语音AI Agent。

3月21日凌晨1点，OpenAI进行了技术直播，并发布了三款全新语音模型，专用于开发语音AI Agent。

人机交互_open_AI_语音Agent-1

其中两个是语音转文本模型GPT-40 Transcribe和GPT-4 Mini Transcribe；一个是文本转语音模型GPT-40 Mini TTS。OpenAI还特意开发了一个新网站来展示新功能。

令业界兴奋的是，OpenAI宣称开发者可以控制GPT-4O Mini TTS模型的语音情绪和风格，包括兴奋、温柔、鼓励、严肃、愤怒等，“情绪”的引入或许是未来搭建不同业务场景的智能体的重要突破元素。

兴奋还是失望？OpenAI首发的语音Agent究竟效果如何？

OpenAI此次三款全新语音模型一经发布便引起国内外行业媒体与人工智能爱好者的广泛测评。

国内外不少业内人士对OpenAI本次发布表示失望，称OpenAI仅仅是在Meta前抢先首发了语音助手中情绪判断和生成的概念，而在实际的生成效果中则远未到达预期。

人机交互_open_AI_语音Agent-2

仔细分析下，本次OpenAI发布中将“情绪”加入语音交互的升级点令人兴奋，然而我们通过实际测评，则发现其实际效果甚至与国内已有语音Agent能力相差甚远。

我们关注到，北京声智科技有限公司早在智能音箱时代便开始探索人机交互，率先解决了智能音箱时代人机交互中的远场语音交互等技术难题，而在AI硬件时代，该公司也在着力布局人机交互语音Agent的开发和落地。

我们分别用 GPT-4O-Mini-tts和声智APP已有的语音Agent别生成两段了音频，对比后发现，虽然gpt-4o-mini-tts在努力靠近设定风格，但仍旧在情绪表达上仍然十分生硬，人机感严重，尤其在中文表达上的效果更差，对比看来，国内的声智科技在中文交互中明显表现得更为自然。

据相关消息，声智科技将打造全球首个原生自由人机交互Voice Agent，并将在赋能AI硬件、AI应用服务等方面表现出更为强劲的实力。

布局语音Agent，OpenAI此举意欲何为？

尽管OpenAI引入了情绪化语音的创新，但目前的情感表达依旧显得生硬。但仍旧向业界传达了一个重要的信号。因此，未来的AI将更注重情感层次感与语音灵活度，提升对话的自然性和用户的亲和力。AI将能够察觉用户的情绪波动，并通过调整语气、语速或话题切换来安抚或激励用户。

对AI语音交互的重视，OpenAI并非个例。

早在本月初，Meta首席产品官Chris Cox在摩根士丹利技术、媒体和电信会议上透露Meta将于第二季度发布全新的Llama4模型，并致力于使用户与其语音模型之间的对话更接近双向自然对话，允许用户打断，而不是采用更僵化的问答形式。

相比OpenAI而言，Meta有关Llama4模型升级方向的深意不辩自明：将语音交互而非文本交互作为重要入口，直接赋能Meta的Ray-Ban 智能眼镜，允许用户通过语音命令与 AI 助手互动，也是Ray-Ban的一大特色。早有知情者透露，该公司押注未来的所谓 AI Agent将是对话式而非文本主导的。

OpenAI与Meta在2025年这个AI硬件与Agent的风口之年共同关注语音交互的举措令人深思：相比文本交互，语音交互将率先成为主导人机交互和具身智能发展的新范式，人们对人机交互如何实现真正的拟人化仍在不断探索中。

Omni Agent标准究竟如何定义？由谁定义？

从上文的分析可以看出，将“情绪”引入语音交互的必要性不辩自明，但需要跳出“语音”（即voice-powered Agent）本身，在声学领域，探寻声音分类、声纹识别、情绪识别的更大可能性。

1、 对声学和硬件入口的探索

未来的语音Agent将不仅依赖语音，还需要通过分析声音的频谱、音调变化、反射回声、环境噪声等因素，获取更多的情境信息。这些声音背后的数据将为AI的决策提供更加准确的反馈，帮助AI实现情感表达的精准控制。

2、情感与环境的增强感知

未来对话式交互的入口并非“voice”，而是“sound”，在人类的语音语言外，原始的声音环境能传达更多辅助AI进行判断和反馈的内容，而对此类声音信息的收集、分析、处理能力也将成为使AI具备像人一样传递情绪并进行自然对话的基础。AI可以根据用户的情绪波动灵活调整对话内容与语气，使对话更具连贯性和自然感。例如，在家庭场景中AI语气更温暖，在工作场景中则显得更冷静。

3、从Voice Agent到 Omni Agent

未来的语音Agent不止于“声音”，而应关注跨越多种感官反馈，如视觉、触觉甚至气味。AI可以通过手势、眼动等方式与用户互动，实现全感官的综合体验。这将大大提升语音交互的沉浸感，使AI不仅能“听懂”语言，还能通过视觉和触觉反馈提供更加丰富的互动。

4、AI与人类共情的未来展望

AI情感化交互的最终目标是实现“共情”，让AI不仅能理解用户的指令，还能理解用户的情感状态，给予关怀的回应。通过这种方式，AI将真正成为用户的“情感伙伴”，提高长时间交互的质量和亲密感。

OpenAI的发布揭示了语音Agent的技术趋势，但其封闭性与场景局限为行业留下了突破空间。重视声学在人机交互领域的入口级地位，并将其与优质的大模型能力相结合，从语音Agent到Omni Agent将在多个层面带来全新的突破，成为人类与智能体之间更加自然、深入的沟通桥梁。

参考Deepseek的技术路线优势和其在海内外的爆火，作为全球最多人口使用的语种，中文在对话式语音数据资源储备方面具备显著优势，为模型训练和算法优化提供了坚实基础。国内聚焦于该方向持续深耕的企业很有可能在声学、语音方向有超越美国的突破。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。