GPT Voice - 搜索 News

Advanced Voice由OpenAI的多模态模型GPT-4o支持。 OpenAI的研究员在直播中演示了任何运用新功能，点击ChatGPT 聊天栏旁边的语音图标，然后点击左下角的 ...

iPad 也能跑 GPT-4o 级别模型，国产小钢炮的新模型可能会让 AI 硬件不 ...

值得注意的是，GPT-4o API 无法同时输入语音和视频，目前定量评测输入文本和视频。在语音理解方面，超越 Qwen2-Audio 7B，实现通用模型开源 SOTA（包括 ASR、语音描述等任务）；在语音生成方面，MiniCPM-o 2.6 超越 GLM-4-Voice 9B，实现通用模型开源 SOTA。 MiniCPM-o 2.6 的 ...

腾讯网11 天

豆包发布大模型1.5 Pro ，实测：国产AI用最「笨」的方法干翻GPT-4o

这几天海外科技圈最受关注的有两件事，一个是一众科技大佬齐聚特朗普就职典礼，川普还拉上 OpenAI、软银等公司成立一家叫「星际之门」（Stargate Project）的 AI 公司，未来 4 年要投资 5000 亿美元，掀起了新一轮 AI 军备竞赛 ...

腾讯网12 天

豆包App灰度最新语音模式，实现了GPT-4o不会的唱歌

2025年，豆包的第一更，放在了语音通话功能上。 2025年1月20日，豆包发布了最新的“端到端”语音大模型，并基于该模型更新豆包APP的实时语音通话功能。此前，豆包语音通话功能采用的是ASR（自动语音识别）+LLM（大语言模型）+TTS（文生音频 ...

搜狐11 天

豆包大模型1.5 Pro发布：打破AI边界，超越GPT-4o

综合得分超越了业内标准的GPT-4o。这一消息无疑令广大开发者和AI技术爱好者振奋不已，因为它为未来的应用场景提供了更多可能性。除了优秀的语言理解能力，豆包1.5 ...

18 天

RTE与AI的奇妙碰撞：Voice Agent引领未来生态革命

在2024年，实时互动技术（RTE）与人工智能（AI）的深度融合犹如点燃了科技领域的新引擎。一场技术革命悄然展开，GPT-4o和RealtimeAPI的推出，使得实时语音交互突破了各种边界，VoiceAgent似乎已成为生态创新的下一座金矿。随着2024年的钟声敲响，RTE与AI的交汇带来了颠覆性的新体验。5月，支持文本、音频和视觉多模态推理的GPT-4o登场；10月，OpenAI推出支撑语音实 ...