牛掌柜 OpenAI 最智能语音模型: GPT-Realtime-2 登场, GPT-5 级推理能力

IT之家5月8日消息，OpenAI发布三款实时语音模型，分别针对推理、翻译和转录场景，集成于RealtimeAPI供开发者调用。这三款模型为实时语音应用提供底层技术支撑，目标解决语音交互中的延迟、打断处理和多语言支持难题。

GPT-Realtime-2专为实时交互设计，是首款具备GPT-5级推理能力的语音模型。它在保持对话自然流畅的前提下，能在对话过程中进行推理、调用工具，并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手，并能执行多步骤任务。

定价方面，GPT-Realtime-2音频输入定价为每百万Token费用32美元（IT之家注：现汇率约合218.1元人民币），输出为64美元（现汇率约合436.2元人民币），缓存输入仅需0.4美元。

GPT-Realtime-Translate支持70种输入语言转13种输出语言，翻译速度与说话者同步，适用于跨国会议或实时沟通场景。

GPT-Realtime-Whisper则专注于低延迟流式转录，音频随说随转，让实时字幕和会议记录能跟上对话节奏，减少等待时间。翻译和转录模型按分钟计费，分别为每分钟0.034美元和0.017美元。

久联优配提示：文章来自网络，不代表本站观点。

金控配资· 6款重磅绿牌新车续航信息曝光！