news 2026/6/10 17:40:22

OpenAI计划第一季度推出全新音频生成模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI计划第一季度推出全新音频生成模型

据报道,OpenAI集团正在开发一款专门针对音频生成任务优化的全新人工智能模型。

《The Information》今日援引消息人士称,该算法将于3月底前发布。据该出版物报道,预计新模型将产生比OpenAI当前模型更自然的语音效果。该AI还将在处理与用户的实时双向交互方面表现更佳。

据报道,OpenAI将基于全新架构构建该模型。该公司目前的旗舰实时音频模型GPT-realtime采用了广泛使用的Transformer架构。目前尚不清楚该公司是否会转向完全不同的算法设计,还是仅仅采用新的Transformer实现方案。

一些基于Transformer的音频模型直接处理语音。而其他模型,如OpenAI在2022年发布的Whisper算法,会先将音频文件转换为称为频谱图的图形,然后再进行处理。Whisper和该公司较新的音频模型都提供多个版本,输出质量各不相同。OpenAI可能也会为预计本季度发布的算法提供多个版本。

据报道,该公司已将多个工程、产品和研究团队整合,以支持其音频模型推进计划。该项目据称由Kundan Kumar领导,他是风投支持的AI提供商Character.AI公司的前研究员。该初创公司的许多其他员工在2024年底作为27亿美元反向收购的一部分加入了谷歌公司。

OpenAI即将推出的模型可能不会仅专注于语音生成用例。新兴的AI音乐生成领域目前正经历快速增长:《华尔街日报》最近报道称,市场参与者之一、初创公司Suno公司正在产生超过2亿美元的年收入。进入这一领域可能有助于OpenAI提升其消费者业务。

即将推出的音频模型是该公司进入消费电子产品市场更广泛努力的一部分。据《The Information》报道,OpenAI计划在大约一年内推出"音频优先的个人设备"。据信该公司最终可能推出包括智能音箱和智能眼镜在内的完整设备产品组合。

去年5月,OpenAI收购了产品设计初创公司io Products来支持其消费硬件推进计划。该交易对这家由Jony Ive创立的初创公司估值65亿美元。10月,《金融时报》报道称,Ive正在开发一款智能手机大小的设备,设计用于放置在桌子或台面上。

OpenAI可能寻求开发轻量级的设备端音频模型来支持其进入消费硬件的举措。在本地处理提示比将它们发送到云端更具成本效益。谷歌在其Pixel智能手机系列中采用了类似方法,使用名为Gemini Nano的设备端模型来支持某些AI功能。

Q&A

Q1:OpenAI新音频模型有什么特别之处?

A:OpenAI即将推出的新音频模型基于全新架构构建,预计将产生比当前模型更自然的语音效果,并在处理与用户的实时双向交互方面表现更佳。该模型计划于2025年第一季度末发布。

Q2:OpenAI为什么要开发音频模型?

A:这是OpenAI进入消费电子产品市场更广泛战略的一部分。AI音乐生成领域正快速增长,加入这一领域可能帮助提升消费者业务。同时为支持计划中的"音频优先个人设备"和智能硬件产品组合。

Q3:OpenAI在消费硬件方面有什么计划?

A:OpenAI计划在大约一年内推出"音频优先的个人设备",最终可能推出包括智能音箱和智能眼镜的完整设备组合。公司已收购Jony Ive创立的产品设计公司io Products来支持硬件推进计划。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:00:09

Chromedriver下载地址经常404?GLM-4.6V-Flash-WEB识别下载按钮

Chromedriver下载地址经常404?GLM-4.6V-Flash-WEB识别下载按钮 在自动化测试、爬虫开发或持续集成流程中,你是否曾因一条“404 Not Found”的错误而中断构建任务?尤其当你依赖的 chromedriver 下载链接突然失效时——这几乎是每个与 Seleniu…

作者头像 李华
网站建设 2026/6/10 12:58:19

Product Hunt 每日热榜 | 2026-01-05

1. Joodle 标语:将多年的回忆变成个人涂鸦 介绍:用简单的日常涂鸦捕捉生活中的瞬间。不需要任何绘画技巧,画出你最在意的事物。Joodle将你的日常思绪变成一条活生生的视觉时间线,带有小工具,让你的回忆随时展现在主屏…

作者头像 李华
网站建设 2026/6/9 16:14:48

还在为Excel文件过大发愁?Dify批量提取解决方案来了!

第一章:Dify Excel 大文件提取的背景与价值在企业级数据处理场景中,Excel 文件常被用于存储结构化业务数据。随着数据量的增长,传统工具在处理超过百万行的大型 Excel 文件时面临内存溢出、解析缓慢等问题。Dify 作为一款支持 AI 工作流编排的…

作者头像 李华
网站建设 2026/6/10 1:49:34

Dify私有化环境性能调优实战:5大关键指标提升300%响应速度

第一章:Dify私有化部署性能优化概述在企业级AI应用日益增长的背景下,Dify作为一款支持可视化编排与私有化部署的AI工作流平台,其性能表现直接影响到业务响应效率与用户体验。私有化部署虽然保障了数据安全与系统可控性,但也带来了…

作者头像 李华
网站建设 2026/6/10 14:11:39

GLM-4.6V-Flash-WEB模型性能测评:准确率与推理速度的完美平衡

GLM-4.6V-Flash-WEB模型性能测评:准确率与推理速度的完美平衡 在智能内容理解需求日益增长的今天,企业对图像识别、图文问答和自动化审核系统的要求早已不再局限于“能不能看懂图”。真正的挑战在于——能否在百毫秒内给出精准回答,同时还能跑…

作者头像 李华